- J Martin Bland, professor of medical statisticsa,
- Douglas G Altman, headb
a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE
b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF
Chúng ta thường chuyển dạng dữ liệu bằng cách lấy loga, căn bậc hai, nghịch đảo hoặc một hàm khác đối với dữ liệu thô. Sau đó chúng ta tiến hành phân tích trên dữ liệu đã được chuyển dạng chứ không trên dữ liệu ban đầu. Chúng ta thực hiện việc này bởi vì nhiều kỹ thuật thống kê, như t-test, hồi quy, và phân tích phương sai đòi hỏi dữ liệu phải tuân theo một luật phân phối xác định nào đó. Bản thân các quan sát phải được lấy từ quần thể tuân theo phân phối chuẩn, và các nhóm khác nhau phải được lấy từ các quần thể có cùng phương sai hoặc độ lệch chuẩn. Chúng ta cần sự đồng nhất của phương sai vì chúng ta sẽ ước lượng phương sai giữa các nhóm và chúng ta chỉ có thể làm điều đó chỉ khi chúng ta giả định được là nó (phương sai) là như nhau trong mỗi nhóm. Nhiều biến sinh học tuân theo phân phối chuẩn với variance là đồng nhất. Nhưng nhiều biến không thể có điều đó nếu không có sự chuyển dạng dữ liệu phù hợp. May mắn là, chuyển dạng dữ liệu làm cho dữ liệu có phân phối chuẩn thì cũng thường làm cho phương sai trở nên đồng nhất, và ngược lại. Trong bài này chúng ta sẽ giải thích vì sao như vậy.