Statistics are like bikinis; what they reveal is suggestive, but what they conceal is vital. Aaron Levenstein

Wednesday, January 12, 2011

Ghi chú về phép gán và viết hàm trong R

Bs. Trần Quý Phi.

Bài này lưu ý một số vấn đề về phép gán và cách gán tham số khi gọi hàm trong R

Monday, December 27, 2010

Phát hiện phân bố lệch từ số liệu tổng kết

Douglas G Altman, J Martin Bland

(Nguyên văn Statistics Notes: Detecting skewness from summary information

có thể đọc tại http://www.bmj.com/content/313/7066/1200.1.full)

Như chúng ta đã ghi nhận trước đây, nhiều phương pháp phân tích có giả định rằng dữ liệu có phân phối thường (normal distribution). Khi dữ liệu không đạt tiêu chuẩn đó chúng ta thường chuyển dạng dữ liệu để nó trở nên gần phân phối bình thường hơn. Độc giả có thể có ý muốn được bảo đảm là các tác giả tiến hành các phân tích phù hợp. Khi các tác giả trình bày dữ liệu dưới dạng histogram hoặc sơ đồ phân tán (scatter diagram) thì độc giả có thể hình dung là giả định về phân phối có đạt được hay không. Tuy nhiên, nếu chỉ có các tóm tắt con số thông kê được trình bày, là trường hợp hay gặp, thì việc này rất khó khăn. Nếu việc tổng kết số liệu bao gồm cả range (max - min) thì ta có thể có một ý niệm về phân phối.

Saturday, December 25, 2010

Chuyển dạng dữ liệu

 

  1. J Martin Bland, professor of medical statisticsa,
  2. Douglas G Altman, headb

a Department of Public Health Sciences, St George's Hospital Medical School, London SW17 0RE

b ICRF Medical Statistics Group, Centre for Statistics in Medicine, Institute of Health Sciences, PO Box 777, Oxford OX3 7LF

Chúng ta thường chuyển dạng dữ liệu bằng cách lấy loga, căn bậc hai, nghịch đảo hoặc một hàm khác đối với dữ liệu thô. Sau đó chúng ta tiến hành phân tích trên dữ liệu đã được chuyển dạng chứ không trên dữ liệu ban đầu. Chúng ta thực hiện việc này bởi vì nhiều kỹ thuật thống kê, như t-test, hồi quy, và phân tích phương sai đòi hỏi dữ liệu phải tuân theo một luật phân phối xác định nào đó. Bản thân các quan sát phải được lấy từ quần thể tuân theo phân phối chuẩn, và các nhóm khác nhau phải được lấy từ các quần thể có cùng phương sai hoặc độ lệch chuẩn. Chúng ta cần sự đồng nhất của phương sai vì chúng ta sẽ ước lượng phương sai giữa các nhóm và chúng ta chỉ có thể làm điều đó chỉ khi chúng ta giả định được là nó (phương sai) là như nhau trong mỗi nhóm. Nhiều biến sinh học tuân theo phân phối chuẩn với variance là đồng nhất. Nhưng nhiều biến không thể có điều đó nếu không có sự chuyển dạng dữ liệu phù hợp. May mắn là, chuyển dạng dữ liệu làm cho dữ liệu có phân phối chuẩn thì cũng thường làm cho phương sai trở nên đồng nhất, và ngược lại. Trong bài này chúng ta sẽ giải thích vì sao như vậy.

Friday, December 24, 2010

Sử dụng chuyển dạng dữ liệu khi so sánh hai trung bình

Kỹ thuật thống kê thường dùng để so sánh hai trung bình của hai nhóm là khoảng tin cậy hoặc test ý nghĩa dựa trên phân phối t. Để thực hiện phương pháp này chúng ta phải giả định dữ liệu là các mẫu được lấy từ một phân phối chuẩn và có cùng phương sai. Bảng dữ liệu về số đo nếp gấp da cơ nhị đầu của 20 bệnh nhân mắc bệnh Crohn và 9 bệnh nhân có bệnh coeliac.(VN hay dịch là bệnh tiêu chảy mỡ)

Thursday, December 23, 2010

Chuyển dạng dữ liệu, trung bình và khoảng tin cậy

Việc dùng dữ liệu đã được chuyển dạng (transformed data) trong các phân tích sẽ làm ành hưởng đến các ước lượng nhận được cuối cùng.