Statistics are like bikinis; what they reveal is suggestive, but what they conceal is vital. Aaron Levenstein

Saturday, December 25, 2010

Chuyển dạng dữ liệu

 

  1. J Martin Bland, professor of medical statisticsa,
  2. Douglas G Altman, headb

a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE

b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF

Chúng ta thường chuyển dạng dữ liệu bằng cách lấy loga, căn bậc hai, nghịch đảo hoặc một hàm khác đối với dữ liệu thô. Sau đó chúng ta tiến hành phân tích trên dữ liệu đã được chuyển dạng chứ không trên dữ liệu ban đầu. Chúng ta thực hiện việc này bởi vì nhiều kỹ thuật thống kê, như t-test, hồi quy, và phân tích phương sai đòi hỏi dữ liệu phải tuân theo một luật phân phối xác định nào đó. Bản thân các quan sát phải được lấy từ quần thể tuân theo phân phối chuẩn, và các nhóm khác nhau phải được lấy từ các quần thể có cùng phương sai hoặc độ lệch chuẩn. Chúng ta cần sự đồng nhất của phương sai vì chúng ta sẽ ước lượng phương sai giữa các nhóm và chúng ta chỉ có thể làm điều đó chỉ khi chúng ta giả định được là nó (phương sai) là như nhau trong mỗi nhóm. Nhiều biến sinh học tuân theo phân phối chuẩn với variance là đồng nhất. Nhưng nhiều biến không thể có điều đó nếu không có sự chuyển dạng dữ liệu phù hợp. May mắn là, chuyển dạng dữ liệu làm cho dữ liệu có phân phối chuẩn thì cũng thường làm cho phương sai trở nên đồng nhất, và ngược lại. Trong bài này chúng ta sẽ giải thích vì sao như vậy.

Thứ nhất, phân phối chuẩn và tính đồng nhất của phương sai đi đôi với nhau. Có thể chứng minh về mặt toán học là khi ta lấy các mẫu ngẫu nhiên từ một quần thể thì các trung bình và các độ lệch chuẩn của các mẫu này là độc lập (không liên quan với nhau) nếu quần thể tuân theo luật phân phối chuẩn. Nói cách khác, độ lệch chuẩn cả các mẫu là không liên quan đến trung bình. Thêm nữa, nếu trung bình và độ lệch chuẩn là độc lập với nhau thì phân phối sẽ là phân phối chuẩn. Điều này khó hình dung, nhưng sự thật là vậy.

Thứ hai, nếu chúng ta cộng nhiều biến cùng với nhau thì thường chúng ta có được phân phối chuẩn. Ví dụ, lý thuyết giới hạn trung tâm đã cho thấy là các trung bình của các mẫu lớn tuân theo phân phối chuẩn, cho dù bản thân các quan sát có phân phối gì chăng nữa. Tương tự, nếu một biến sinh học là kết quả của tổng nhiều ảnh hường thì nó sẽ tuân theo phân phối chuẩn. Chiều cao của con người là một ví dụ. Nhiều chỉ số sinh học không đúng như vậy mặc dù nó là sản phẩm của nhiều yếu tố. Các thành phần của máu, lấy ví dụ, có thể bị thải trừ với một tốc độ tùy thuộc vào chất khác đến lượt chất này lại phụ thuộc vào chất khác nữa. Chúng ta có tích của nhiều yếu tố nhân với nhau, chứ không phải là tổng. Nếu chúng ta lấy loga tích này thì chúng ta sẽ có tổng của các loga. Do đó, một biến là tích của nhiều yếu tố sẽ có loga là tổng của các yếu tố, và do đó sẽ tuân theo phân phối chuẩn.

Thứ ba, mối liên hệ giữa phương sai và trung bình của các nhóm khác nhau thường là khá đơn giản. Phương sai có thể tỉ lệ với trung bình của nhóm, căn bậc hai của trung bình, lũy thừa 4 của trung bình vân vân…Với những mối quan hệ như vậy, sự chuyển dạng dữ liệu đơn giản sẽ làm phương sai độc lập với trung bình. Nếu phương sai tỉ lệ với trung bình chúng ta có thể sử dụng chuyển dạng căn thức. Đó thường là trường hợp xảy ra đối với dữ liệu có được khi đếm sự kiện, ví dụ số các tế bào của một loại tế bào đặc thù trong một thể tích máu nào đó hoặc số người chết vì AIDS trong một vùng địa lý trong 1 năm. Những dữ liệu này có khuynh hướng tuân theo phân phối Poisson, có phương sai bằng với mean. Nếu dữ liệu là tỉ lệ với căn bậc hai của trung bình, tức là độ lệch chuẩn tỉ lệ với trung bình, chúng ta dùng chuyển dạng loga. Đó là trường hợp hay gặp nhất trong thực hành, thích hợp với các dữ liệu như cholesterol huyết thanh. Nếu phương sai tỉ lệ với căn bậc hai của trung bình, chúng ta dùng chuyển dạng nghịc đảo, được dùng với các biến định tính có giá trị lớn như cratinine huyết thanh. Như vậy, chúng ta có thể chuyển dạng dữ liệu để phương sai không còn liên hệ với trung bình, trong trường hợp đó dữ liệu sẽ có khuynh hướng tuân theo phân phối chuẩn.

Một số người có thể hỏi liệu việc sử dụng chuyển dạng là  một kiểu “ăn gian” (cheating) không. Thực ra không có lý do nào giải thích được là chỉ có thang đo “tự nhiên” là một cách, hoặc là cách tốt nhất để biểu diễn phép đo. pH là một ví dụ, luôn được trình bày như là số đo loga, pH = - log10 (H+), với H+ là đậm độ của ion hydro bằng mole trên dm lập phương. Do đó thang đo “tự nhiên” là 10-pH . Thang đo tự nhiên này là khó sử dụng, và thang đo loga luôn luôn được dùng thay (mà không có vấn đề gì).

Nếu chúng ta có thể chuyển dạng dữ liệu sao cho nó tuân theo luật phân phối chuẩn với phương sai là độc lập với trung bình, các phân tích có giá trị có thể được tiến hành trên thang đo đã chuyển này. Chỉ có một bất tiện là các khoảng tin cậy ở thang đo chuyển dạng là khó được diễn giải một cách hợp lý. Chúng ta sẽ giải thích điều này trong một bài khác.

Người dịch: Trần Quý Phi

Nguyên tác:

Statistics Notes: Transforming data

  1. J Martin Bland, professor of medical statisticsa,
  2. Douglas G Altman, headb

 

  1. a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE
  2. b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF

    We often transform data by taking the logarithm, square root, reciprocal, or some other function of the data. We then analyse the transformed data rather than the untransformed or raw data. We do this because many statistical techniques, such as t tests, regression, and analysis of variance, require that data follow a distribution of a particular kind. The observations themselves must come from a population which follows a normal distribution,1 and different groups of observations must come from populations which have the same variance or standard deviation. We need this uniform variance because we estimate the variance within the groups, and we can do this well only if we can assume it to be the same in each group. Many biological variables do follow a normal distribution with uniform variance. Many of those which do not can be made to do so by a suitable transformation. Fortunately, a transformation which makes data follow a normal distribution often makes the variance uniform as well, and vice versa. In this note we shall try to explain why this is the case.

    Firstly, the normal distribution and uniform variance go together. It can be shown mathematically that if we take random samples from a population the means and standard deviations of these samples will be independent (and thus uncorrelated) if the population has a normal distribution. In other words, the standard deviation of the samples will not be related to the mean. Furthermore, if the mean and standard deviation are independent the distribution must be normal. This is harder to credit, but it is true.

    Secondly, if we add together many variables we usually get a normal distribution. For example, the central limit theorem shows that the means of large samples will follow a normal distribution, whatever the distribution of the observations themselves.1 Similarly, if a biological variable is the result of the sum of many influences, it will follow a normal distribution. Human height is an example. Many biological measurements are not like this, however, but are the product of several factors. Substances in blood, for example, may be removed at a rate depending on the level of some other substance, which in turn is produced at a rate which depends on something else, and so on. We have the product of several influences multiplied together, rather than the sum. If we take the logarithm of the product of several variables, we get the sum of their logarithms.2 So a variable which is the product of several factors has a logarithm which is the sum of several factors and so will follow a normal distribution.

    Thirdly, any relation between variance and mean over several groups is usually fairly simple. The variance may be proportional to the group mean, the mean squared, the mean to the fourth power, etc. For such relations simple transformations can be found which will make the variance independent of the mean. If the variance is proportional to the mean we can use the square root transformation. This is often the case for data which are counts of things or events—for example, the number of cells of a particular type in a given volume of blood or number of deaths from AIDS in a geographical area over one year. Such data tend to follow a Poisson distribution, which has its variance equal to its mean. If the variance is proportional to the mean squared—that is, the standard deviation is proportional to the mean—we use the logarithmic transformation. This is the most frequent case in practice, suitable for variables such as serum cholesterol. If the variance is proportional to the mean to the fourth power—that is, the standard deviation is proportional to the mean squared—we use a reciprocal transformation, used for highly variable quantities such as serum creatinine. Thus we can transform the data to make the variance unrelated to the mean, in which case the data are likely to follow a normal distribution.

    Some people ask whether the use of a transformation is cheating. There is no reason why the “natural” scale should be the only, or indeed the best, way to present measurements. pH, for example, is always presented as a logarithmic measure, pH=-log10(H+), where H+ is the concentration of hydrogen ions in moles per cubic decimetre. Thus the “natural” scale is 10-pH. This natural scale is very awkward to use, and the logarithm is always used instead.

    If we can transform data to follow a normal distribution with variance independent of the mean, valid analyses can be carried out on this transformed scale. There is one drawback, however, as confidence intervals on the transformed scale may be difficult to interpret. We shall deal with this in a subsequent note.

    2 comments:

    1. Cảm ơn Thầy Phi, bài rất hay!

      ReplyDelete
    2. Chào anh Phi và các anh chị lớp thống kê!
      Bài dịch này của anh Phi rất hay mặc dù nghiên về các thí dụ thuộc lãnh vực y khoa, nhưng tôi hy vọng các anh chị trong lơp thống kê của mình sẽ liên hệ được qua chuyên môn của mình. Chẳng hạn trong bảo quan thực thẩm số mọt trong các mẫu bột mì là một dãy số biến đông rất rộng có mẫu không có con nào có mẫu 1 vài con, một vài chục con, một vài trăm con trong trường hợp này để so sánh trung bình số mọt giữa các phương pháp bảo quản cách hay nhất là nên lên căn bậc hai số liệu trước khi t test hoặc phân thích ANOVA...
      Hoặc theo một vài tài liệu khi dãy số liệu là tỉ lệ phần trăm được tính từ số đếm là có, bị hư, thích ...trên tồng số khảo sát và với điều kiện dãy số tỉ lệ này biến thiên từ 0-25% và 75-100% cũng nên lấy căn bậc hai số liệu trước khi phân tích so sánh trung bình
      Cám ơn anh Phi và mong sự trao trổi thêm của các thành viên trong lớp
      TRAN Van Chinh
      Bo mon Di Truyen Giong
      Khoa Chan Nuoi Thu Y
      Truong Dai hoc Nong Lam tpHCM
      Vietnam

      ReplyDelete