Statistics are like bikinis; what they reveal is suggestive, but what they conceal is vital. Aaron Levenstein

Thursday, December 23, 2010

Chuyển dạng dữ liệu, trung bình và khoảng tin cậy

Việc dùng dữ liệu đã được chuyển dạng (transformed data) trong các phân tích sẽ làm ành hưởng đến các ước lượng nhận được cuối cùng.

Hình 1 chỉ ra các số liệu của triglyceride huyết thanh, nó có phân bố bị lệch (skewness). Việc chuyển đổi thành logarit thường được dùng cho những phân bố bị lệch dương như thế này và ở đây sự xấp xỉ cho một phân bố chuẩn đã tốt lên rất nhiều.

Đối với dữ liệu chưa chuyển dạng (raw data, dữ liệu thô) thì trung bình là 0.51 mmol/l và độ lệch chuẩn là 0.22 mmol/l. Trung bình của log10 (dữ liệu đã chuyển) là -0.33 và độ lệch chuẩn là 0.17. Nếu chúng ta lấy trung bình trên dữ liệu đã chuyển dạng và đưa ngược lại bằng hàm mũ, chúng ta nhận được 10 -0.33, bằng 0.47 mmol/l. Giá trị ước tính theo cách này là trung bình hình học (geometric mean, bằng căn bậc n của tích các giá trị-ND). Trung bình hình học nhỏ hơn trung bình số học. (bất đẳng thức Cauchy-ND)

Nồng độ triglyceride huyết thanh được đo bằng mmol/l thì log của mỗi quan sát riêng rẽ là log của mmol/l. Trung bình của n dữ liệu được chuyển như vậy cũng là log của một số có đơn vị mmol/l, và khi chuyển ngược lại bằng hàm mũ thì nó (trung bình) sẽ trở lại đơn vị gốc, đó là mmol/l 

Nhưng hàm mũ của độ lệch chuẩn, lại không phải có đơn vị gốc là mmol/l. Việc tính toán độ lệch chuẩn của dữ liệu đã chuyển thành log đòi hỏi việc lấy hiệu của mỗi log quan sát được và log của trung bình hình học (tức là log X(i) – geometric mean (log X)- ND). Hiệu giữa hai log của hai số là log của tỉ số (ratio) của chúng (log x – log y = log (x/y) – ND). Vì tỉ số (ratio) là một số thuần túy không có đơn vị, nên đơn vị đo của triglyceride là gì đi nữa thì độ lệch chuẩn của thang đo bằng log luôn như nhau. Vì vậy, chúng ta không thể chuyển ngược độ lệch chuẩn về thang đo gốc được.

Nếu chúng ta muốn dùng độ lệch chuẩn hoặc sai số chuẩn thì cách dễ dàng nhất là tính toán tất cả trong thang đo đã chuyển dạng và cuối cùng khi xong thì chuyển ngược lại, nếu cần. Ví dụ, khoảng tin cậy 95% cho trung bình (số học- arithmetic mean-ND) ở thang đo log là –0.35 đến –0.31. Để chuyển ngược lại thang đo gốc chúng ta dùng hàm mũ của khoảng tin cậy này và được khoảng tin cậy 95% cho trung bình hình học ở thang đo gốc (0.47)là 0.45 đến 0.49 mmol/l. So sánh với 95%CI của trung bình số học của dữ liệu thô, chưa chuyển dạng là 0.48 đến 0.54 mmol/l thì giới hạn này là rộng hơn trung bình hình học (của dữ liệu thô). Đó là do dữ liệu (thô) có độ lệch cao và những kết quả có giá trị quá mức ảnh hưởng lớn đến trung bình số học, làm nó dễ bị ảnh hưởng bởi sai số do lấy mẫu. Làm nhẹ đi ảnh hưởng này là một lợi điểm của việc dùng các dữ liệu được chuyển dạng.

Nếu chúng ta dùng cách chuyển dạng khác, như là lấy nghịch đảo hoặc căn bậc hai, thì nguyên lí trên cũng được áp dụng. Chúng ta sẽ thực hiện mọi tính toán trong thang đo mới và chuyển ngược lại mỗi khi cần phải tính khoảng tin cậy cho trung bình mẫu và khoảng tin cậy của nó. Sự việc trở nên khá phức tạp khi chúng ta xem xét sai lệch giữa hai trung bình.

Người dịch: Trần Quý Phi – phi@cdytqn.edu.vn

Ghi chú của người dịch

Trung bình số học của dữ liệu đã chuyển:

clip_image002[5]

Chuyển ngược

clip_image002[9]

Nguyên văn:

Statistics notes: Transformations, means, and confidence intervals

BMJ 1996; 312 : 1079 (Published 27 April 1996)

J Martin Bland, Douglas G Altman

When we use transformed data in analyses,1 this affects the final estimates that we obtain. Figure 1 shows some serum triglyceride measurements, which have a skewed distribution. A logarithmic transformation is often useful for data which have positive skewness like this, and here the approximation to a normal distribution is greatly improved. For the untransformed data the mean is 0.51 mmol/l and the standard deviation 0.22 mmol/l. The mean of the log10 transformed data is -0.33 and the standard deviation is 0.17. If we take the mean on the transformed scale and back transform by taking the antilog, we get 10-0.33=0.47 mmol/l. We call the value estimated in this way the geometric mean. The geometric mean will be less than the mean of the raw data.

 

Fig 1

Fig 1

Serum triglyceride and log10 serum triglyceride concentrations in cord blood for 282 babies, with best fitting normal distribution

Đậm độ triglyceride huyết thanh và log 10 của triglyceride huyết thanh trong máu dây rốn của 282 em bé, với việc điều chỉnh tốt nhất để thành phân bố chuẩn

 

When triglyceride is measured in mmol/l the log of a single observation is the log of a measurement in mmol/l. The average of n such transformed measurements is also the log of a number in mmol/l, so the antilog is back in the original units, mmol/l.

The antilog of the standard deviation, however, is not measured in mmol/l. Calculation of the standard deviation of the log transformed data requires taking the difference between each log observation and the log geometric mean.

The difference between the log of two numbers is the log of their ratio.2 As a ratio is a dimensionless pure number, the units in which serum triglyceride was measured would not matter; the standard deviation on the log scale would be the same. As a result, we cannot transform the standard deviation back to the original scale.

If we want to use the standard deviation or standard error it is easiest to do all calculations on the transformed scale and transform back, if necessary, at the end. For example, the 95% confidence interval for the mean on the log scale is -0.35 to -0.31. To get back to the original scale we antilog the confidence limits on the log scale to give a 95% confidence interval for the geometric mean on the natural scale (0.47) of 0.45 to 0.49 mmol/l. For comparison, the 95% confidence interval for the arithmetic mean using the raw, untransformed data is 0.48 to 0.54 mmol/l. These limits are wider than those for the geometric mean. This is because with highly skewed data the extreme observations have a large influence on the arithmetic mean, making it more prone to sampling error. Lessening this influence is one advantage of using transformed data.

If we use another transformation, such as the reciprocal or the square root,1 the same principle applies. We carry out all calculations on the transformed scale and transform back once we have calculated the confidence interval. This works for the sample mean and its confidence interval. Things become more complicated if we look at the difference between two means. We shall look at this in another Statistics Note.

No comments:

Post a Comment