Kỹ thuật thống kê thường dùng để so sánh hai trung bình của hai nhóm là khoảng tin cậy hoặc test ý nghĩa dựa trên phân phối t. Để thực hiện phương pháp này chúng ta phải giả định dữ liệu là các mẫu được lấy từ một phân phối chuẩn và có cùng phương sai. Bảng dữ liệu về số đo nếp gấp da cơ nhị đầu của 20 bệnh nhân mắc bệnh Crohn và 9 bệnh nhân có bệnh coeliac.(VN hay dịch là bệnh tiêu chảy mỡ)
Bảng 1 Độ dày nếp gấp da (mm) ở hai nhóm bệnh nhân
Crohn's disease | Coeliac disease |
1.8 | 2.8 | 4.2 | 6.2 | 1.8 | 3.8 |
2.2 | 3.2 | 4.4 | 6.6 | 2.0 | 4.2 |
2.4 | 3.6 | 4.8 | 7.0 | 2.0 | 5.4 |
2.5 | 3.8 | 5.6 | 10.0 | 2.0 | 7.6 |
2.8 | 4.0 | 6.0 | 10.4 | 3.0 | |
Mean=4.72 | Mean=3.53 |
SD=2.42 | SD=1.96
|
Dữ liệu được xếp thứ tự nhỏ đến lớn và có thể nhận thấy khá rõ là phân bố bị lệch và khác xa với phân bố chuẩn. Khi giả định về tính chuẩn của phân bố không đúng, như trường hợp này, chúng ta thường chuyển đổi dữ liệu thành một thang đo khác, mà lúc đó giả định về độ chuẩn của dữ liệu là phù hợp. Việc chuyển đổi làm phân bố trở nên phân bố chuẩn cũng cho ta sự đồng nhất về phương sai. Bảng 2 chỉ ra kết quả các phân tích khi dùng các chuyển đổi căn bậc hai, logarit và nghịch đảo. Chuyển đô logarit cho ta các phương sai gần nhau nhất và do đó mang lại tính giá trị cao nhất của test ý nghĩa. Nó cũng cho một xấp xỉ gần giống phân bố chuẩn nhất. Bảng 2 So sánh độ dày của nếp gấp da ở cơ nhị đầu của hai nhóm bệnh nhân, bằng các cách chuyển dạng dữ liệu khác nhau
| Two sample ttest, 27 df | | |
Chuyển dạng | t | P | 95% CI cho sự khác biệt các trung bình | Tỉ số phương sai, lớn hơn/nhỏ hơn |
Không, dữ liệu thô | 1.28 | 0.21 | -0.71 mm to 3.07 mm | 1.52 |
Căn bậc hai | 1.38 | 0.18 | -0.140 to 0.714 | 1.16 |
Logarithm | 1.48 | 0.15 | -0.114 to 0.706 | 1.10 |
Nghịch đảo | -1.65 | 0.11 | -0.203 to 0.022 | 1.63
|
Tuy nhiên, ta lại khó diễn giải khoảng tin cậy ở dữ liệu đã chuyển dạng. Không giống trường hợp một mẫu, các giới hạn của khoảng tin cậy của sự khác biệt các trung bình không thể chuyển dạng ngược lại thang đo gốc. Nếu chúng ta thử điều đó cho các giới hạn được tính từ dữ liệu chuyển dạng nghịch đảo hay căn bậc hai thì chúng ta sẽ có các kết quả buồn cười. Giới hạn dưới của chuyển dạng kiểu căn bậc hai có giá trị âm. Nếu chúng ta bình phương nó lên thì chúng ta có giới hạn dưới là dương, và khoảng tin cậy không chứa zero, ngay cả khi sự khác biệt là không có ý nghĩa thống kê. Nếu sự khác biệt quan sát được đúng bằng 0 thì các giới hạn của khoảng tin cậy sẽ bằng nhau về trị tuyệt đối nhưng trái dấu. Việc chuyển đổi ngược lại bằng cách bình phương sẽ làm cho chúng bằng nhau. Đối với kiểu chuyển nghịch đảo thì giới hạn trên là rất nhỏ (0.022) và việc chuyển ngược lại bằng cách lấy nghịch đảo lần nữa cho ra con số 45.5. Không thể nào lại có chuyện sự khác nhau của hai trung bình của độ dày nếp gấp ở hai nhóm lại là 45.5. Vì vậy khoảng tin cậy cho sự khác biệt không thể diễn giải trên thang đo chưa chuyển đổi (gốc).
Chỉ có thang đo loga mới cho ta kết quả có thể diễn giải được (và do đó là có ích) sau khi chúng ta đổi ngược lại về dữ liệu gốc. Dùng phép mũ chúng ta nhận được khoảng tin cậy là 0.89 đến 2.03 nhưng chúng không là các giới hạn của sự khác biệt bằng mm. Vì sao chúng không chứa 0 nhưng sự khác biệt lại là không có ý nghĩa thống kê? Vì thực tế chúng là 95% CI của tỉ lệ giữa trung bình hình học giữa nhóm Crohn và nhóm coeliac. Nếu không có sự khác biệt thì 1 sẽ không nằm giữa các giới hạn, chứ không phải 0 (như trong trường hợp trung bình số học), Phương pháp này được sử dụng là vì khi chúng ta được tính hiệu của hai loga của hai trung bình hình học thì chúng ta nhận được loga của tỉ số, nhưng không phải là hiệu số (log a - log b = log (a/b)). Chúng ta nhận được loga của một con số thuần túy (không có đơn vị) và khi lấy mũ của chúng thì ta có tỉ số (không đơn vị) của hai trung bình hình học. Chuyển dạng loga rất hay được dùng hơn các chuyển dạng khác là vì lý do này.
Người dịch: Trần Quý Phi
Nguyên tác:
Statistics Notes: The use of transformation when comparing two means
- J Martin Bland, professor of medical statisticsa,
- Douglas G Altman, headb
- a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE
- b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF
BMJ 1996; 312 : 1153 (Published 4 May 1996)
The usual statistical technique used to compare the means of two groups is a confidence interval or significance test based on the t distribution. For this we must assume that the data are samples from normal distributions with the same variance. Table 1 shows the biceps skinfold measurements for 20 patients with Crohn's disease and nine patients with coeliac disease. Table 1 Biceps skinfold thickness (mm) in two groups of patients
The data have been put into order of magnitude, and it is fairly obvious that the distribution is skewed and far from normal. When, as here, the assumption of normality is wrong we can often transform the data to another scale where the assumption of normality is reasonable. The transformation which achieves a normal distribution should also give us similar variances.1 Table 2 shows the results of analyses using the square root, logarithmic, and reciprocal transformations. The log transformation gives the most similar variances and so gives the most valid test of significance. It also gives a reasonable approximation to a normal distribution. Table 2 Biceps skinfold thickness compared for two groups of patients, using different transformations
Confidence intervals for transformed data are more difficult to interpret, however. Unlike the case of a single sample,2 the confidence limits for the difference between means cannot be transformed back to the original scale. If we try to do this the square root and reciprocal limits give ludicrous results. The lower limit for the square root transformation is negative. If we square this we get a positive lower limit and the confidence interval does not contain zero, even though the difference is not significant. If the observed difference were exactly zero the confidence limits would be equal in magnitude but opposite in sign. Transforming back by squaring would make them equal. For the reciprocal transformation the upper limit is very small (0.022) and transforming back by taking the reciprocal again gives 45.5. There is no way that the difference between mean skinfold in these two groups could be 45.5 mm. Thus the confidence interval for a difference cannot be interpreted on the untransformed scale for these transformations. Only the log transformation gives interpretable (and thus useful) results after we transform back. Using the antilog transformation, we get a confidence interval of 0.89 to 2.03, but these are not limits for the difference in millimetres. How could they be, for they do not contain zero, yet the difference is not significant? They are in fact the 95% confidence limits for the ratio of the geometric mean2 for patients with Crohn's disease to the geometric mean for patients with coeliac disease. If there were no difference the expected value of this ratio would be 1, not 0, and so lie within the limits. This procedure works because when we take the difference between the logarithms of the two geometric means we get the logarithm of their ratio, not of their difference.3 We thus have the logarithm of a pure number and we antilog this to give the dimensionless ratio of the two geometric means. The logarithmic transformation is strongly preferable to other transformations for this reason. Fortunately, for medical measurements it often achieves the desired effect.
No comments:
Post a Comment