(Nguyên văn Statistics Notes: Detecting skewness from summary information
có thể đọc tại http://www.bmj.com/content/313/7066/1200.1.full)
Như chúng ta đã ghi nhận trước đây, nhiều phương pháp phân tích có giả định rằng dữ liệu có phân phối thường (normal distribution). Khi dữ liệu không đạt tiêu chuẩn đó chúng ta thường chuyển dạng dữ liệu để nó trở nên gần phân phối bình thường hơn. Độc giả có thể có ý muốn được bảo đảm là các tác giả tiến hành các phân tích phù hợp. Khi các tác giả trình bày dữ liệu dưới dạng histogram hoặc sơ đồ phân tán (scatter diagram) thì độc giả có thể hình dung là giả định về phân phối có đạt được hay không. Tuy nhiên, nếu chỉ có các tóm tắt con số thông kê được trình bày, là trường hợp hay gặp, thì việc này rất khó khăn. Nếu việc tổng kết số liệu bao gồm cả range (max - min) thì ta có thể có một ý niệm về phân phối.
Ví dụ range từ 7 đến 41 chúng quanh trung bình 15 gợi ý là dãy dữ liệu có độ lệch dương. Nhưng vì range dựa vào hai giá trị ngoài cùng (và do đó không đặc trưng) nên ước đoán này không đáng tin. Tính không đối xứng như nhau ảnh hưởng đến tứ phân vị thứ nhất và thứ ba (25 vả 75%) cho nhiều chứng cứ hơn về tính lệch của phân phối. Tuy nhiên, thường thì dữ liệu tổng kết được trình bày chỉ là trung bình và độ lệch chuẩn (SD) hoặc sai số chuẩn (SE). Dựa trên số liệu này ta không thể nói phân phối là bình thường nhưng đôi khi có thể đoan chắc là nó không có phân phối bình thường.
Có hai mẹo có ích. Phân phối bình thường trải dài phía ngoài 2 độ lệch chuẩn ở mỗi bên trị trung bình. Điều này dẫn đến kết luận là với các số đo phải là số dương (như hầu hết các số đo trong y học) nếu trung bình nhỏ hơn hai lần độ lệch chuẩn thì dữ liệu có khuynh hướng bị lệch. Bảng 1 chứa các số liệu về mức cotinine nước tiểu liên quan đến số điếu thuốc hút hàng ngành. Rõ ràng là dữ liệu phải có phân phối rất lệch, vì trung bình nhỏ hơn độ lệch chuẩn trong mỗi nhóm. Khía cạnh này của dữ liệu không được nêu trong bài báo gốc, mà chỉ có trung bình và sai số chuẩn. (Chúng tôi đưa vào độ lệch chuẩn, tính một cách đơn giản bằng sai số chuẩn nhân với căn hai của n). Hậu quả là việc sử dụng t test khó mà không bị cho là sai lầm.Cigarettes smoked per day | No in group | Mean | SE | SD |
1-9 | 25 | 0.31 | 0.08 | 0.40 |
10-19 | 57 | 0.42 | 0.10 | 0.75 |
20-29 | 99 | 0.87 | 0.19 | 1.89 |
30-39 | 38 | 1.03 | 0.25 | 1.54 |
>40 | 28 | 1.56 | 0.57 | 3.02 |
Unspecified | 25 | 0.56 | 0.16 | 0.80 |
Chỉ dẫn thứ hai về độ lệch có thể dùng là khi, như trong bảng 1, có các dữ liệu của nhiều nhóm cá nhân. Như chúng ta đã biết, độ lệch của phân phối bình thường và sự hiện diện của mối liên hệ giữa độ lệch chuẩn với trung bình qua các nhóm thường đi đôi với nhau. Nếu độ lệch chuẩn tăng khi trung bình tăng thì đó là một chỉ dẫn tốt cho thấy dữ liệu là lệch dương, và chuyển dạng logarit có thể được cần đến. Có một mối liên hệ rõ ràng giữa trung bình và độ lệch chuẩn trong số liệu về cotinine. Như chúng ta đã đề cập, chuyển dạng logarit thường loại bỏ được tính lệch của phân bố và độ lệch chuẩn trở nên bằng nhau hơn.
Trong ví dụ này chúng ta phát hiện tính chất lệch của phân bố từ các tổng kết thống kê, nhưng chúng ta không thể nói được hiệu quả của chuyển dạng logarit sẽ như thế nào. Điều này đòi hỏi dữ liệu thô cụ thể.
Người dịch: phi@cdytqn.edu.vn
No comments:
Post a Comment