Statistics are like bikinis; what they reveal is suggestive, but what they conceal is vital. Aaron Levenstein

Saturday, December 25, 2010

Chuyển dạng dữ liệu

 

  1. J Martin Bland, professor of medical statisticsa,
  2. Douglas G Altman, headb

a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE

b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF

Chúng ta thường chuyển dạng dữ liệu bằng cách lấy loga, căn bậc hai, nghịch đảo hoặc một hàm khác đối với dữ liệu thô. Sau đó chúng ta tiến hành phân tích trên dữ liệu đã được chuyển dạng chứ không trên dữ liệu ban đầu. Chúng ta thực hiện việc này bởi vì nhiều kỹ thuật thống kê, như t-test, hồi quy, và phân tích phương sai đòi hỏi dữ liệu phải tuân theo một luật phân phối xác định nào đó. Bản thân các quan sát phải được lấy từ quần thể tuân theo phân phối chuẩn, và các nhóm khác nhau phải được lấy từ các quần thể có cùng phương sai hoặc độ lệch chuẩn. Chúng ta cần sự đồng nhất của phương sai vì chúng ta sẽ ước lượng phương sai giữa các nhóm và chúng ta chỉ có thể làm điều đó chỉ khi chúng ta giả định được là nó (phương sai) là như nhau trong mỗi nhóm. Nhiều biến sinh học tuân theo phân phối chuẩn với variance là đồng nhất. Nhưng nhiều biến không thể có điều đó nếu không có sự chuyển dạng dữ liệu phù hợp. May mắn là, chuyển dạng dữ liệu làm cho dữ liệu có phân phối chuẩn thì cũng thường làm cho phương sai trở nên đồng nhất, và ngược lại. Trong bài này chúng ta sẽ giải thích vì sao như vậy.

Friday, December 24, 2010

Sử dụng chuyển dạng dữ liệu khi so sánh hai trung bình

Kỹ thuật thống kê thường dùng để so sánh hai trung bình của hai nhóm là khoảng tin cậy hoặc test ý nghĩa dựa trên phân phối t. Để thực hiện phương pháp này chúng ta phải giả định dữ liệu là các mẫu được lấy từ một phân phối chuẩn và có cùng phương sai. Bảng dữ liệu về số đo nếp gấp da cơ nhị đầu của 20 bệnh nhân mắc bệnh Crohn và 9 bệnh nhân có bệnh coeliac.(VN hay dịch là bệnh tiêu chảy mỡ)

Thursday, December 23, 2010

Chuyển dạng dữ liệu, trung bình và khoảng tin cậy

Việc dùng dữ liệu đã được chuyển dạng (transformed data) trong các phân tích sẽ làm ành hưởng đến các ước lượng nhận được cuối cùng.