Tầm quan trọng của định lý giới hạn trung tâm

Tram Ho

Giới thiệu

Công việc hàng ngày của bất kỳ nhà khoa học dữ liệu hoặc nhà phân tích dữ liệu nào với suy luận thống kê đều tập trung vào Định lý giới hạn trung tâm. Một khái niệm cơ bản trong xác suất và thống kê là Định lý giới hạn trung tâm (CLT). Lý thuyết nói rằng khi kích thước mẫu tăng lên, phân phối trung bình trên nhiều mẫu sẽ giống với phân phối Gaussian.

Chúng tôi có thể xem xét thực hiện thử nghiệm và thu được kết quả hoặc quan sát. Chúng ta có thể lặp lại thí nghiệm để có được một phát hiện độc lập, mới mẻ. Một mẫu quan sát bao gồm nhiều quan sát được tích lũy.

Trong trường hợp không chắc là khi chúng tôi tính toán giá trị trung bình của mẫu, nó sẽ gần với giá trị trung bình của phân bố dân số. Trong mọi trường hợp, nó sẽ không chính xác và chứa một số lỗi, giống như bất kỳ ước tính nào. Trong trường hợp không chắc là chúng tôi tính toán phương tiện của một số mẫu độc lập rồi phân phối chúng, thì sẽ có phân phối Gaussian.

Tầm quan trọng của CLT

Dưới đây là một số lợi ích/tầm quan trọng phù hợp nhất của Định lý giới hạn trung tâm (CLT):

Chúng tôi nhận được một phân phối nhất định so với ước tính của chúng tôi từ CLT. Điều này cho phép chúng tôi đặt câu hỏi liên quan đến khả năng ước tính mà chúng tôi thực hiện. Ví dụ, giả sử rằng chúng ta đang cố gắng dự đoán kết quả của một cuộc bầu cử. Chúng tôi tiến hành một nghiên cứu và nhận thấy rằng 30% số người được hỏi trong mẫu của chúng tôi sẽ chọn Ứng viên A thay vì Ứng viên B. Vì chúng tôi chỉ kiểm tra một phần nhỏ dân số nên chúng tôi muốn biết liệu kết luận của chúng tôi có thể được xem xét để áp dụng cho toàn bộ hay không. dân số, và nếu không, sai lầm tiềm năng có thể lớn đến mức nào. CLT đã nỗ lực hết sức để tiết lộ cho chúng tôi rằng, trong trường hợp không chắc là chúng tôi lặp lại cuộc thăm dò, thì các giả thuyết tiếp theo sẽ được phân phối đều đặn trên giá trị tổng thể thực tế. Từ trung tâm ra ngoài, CLT có thể hoạt động được. Điều đó có nghĩa là bạn có thể an toàn ngay cả với các mẫu nhỏ nếu bạn đang giả định điều gì đó gần với giá trị trung bình, chẳng hạn như khoảng hai phần ba tổng số trong tương lai sẽ nằm trong một độ lệch chuẩn của giá trị trung bình. Một chức năng quan trọng trong suy luận thống kê được thực hiện bởi CLT. Nó cho biết chính xác mức độ sai số lấy mẫu giảm khi kích thước mẫu tăng lên, cung cấp thông tin về độ chính xác hoặc biên độ sai số để ước tính số liệu thống kê, chẳng hạn như tỷ lệ phần trăm, từ các mẫu. Một biến ngẫu nhiên có phân phối gần như đều đặn được tạo ra thông qua việc tích lũy một số lượng lớn các biến ngẫu nhiên độc lập. Một biến ngẫu nhiên có phân phối gần như đều đặn được tạo ra thông qua việc tích lũy một số lượng lớn các biến ngẫu nhiên độc lập. Ý tưởng rằng có thể ngoại suy các kết quả từ một mẫu cho dân số là điều thúc đẩy suy luận thống kê. Làm thế nào để chúng tôi đảm bảo rằng các mối quan hệ trong một ví dụ là có thật và không chỉ ở đó vì lợi ích của khả năng? Mục tiêu của các bài kiểm tra ý nghĩa là cung cấp một số liệu mục tiêu có thể được sử dụng để giúp xác định xem quan điểm rộng có hợp lệ hay không. Chẳng hạn, người ta có thể tìm thấy mối tương quan nghịch giữa thu nhập và giáo dục trong một mẫu. Tuy nhiên, cần có thêm thông tin chi tiết để chứng minh rằng kết quả có ý nghĩa thống kê và không chỉ là kết quả ngẫu nhiên. Theo CLT, phân phối Gaussian là một ví dụ nổi bật về phân phối giới hạn tự nhiên. Nó hỗ trợ nhiều giả thuyết thống kê, chẳng hạn như tính quy phạm của các số hạng sai số trong hồi quy tuyến tính, là tổng thể độc lập của một số biến ngẫu nhiên có ít biến động hoặc sai sót không thể phát hiện được. Phần lớn các nghiên cứu thực nghiệm, bao gồm nghiên cứu được tiến hành trong các lĩnh vực thiên văn học, tâm lý học và kinh tế học, đều sử dụng CLT, đây có thể là định lý được sử dụng rộng rãi nhất trong tất cả các ngành khoa học. Mọi mẫu, khảo sát, thử nghiệm lâm sàng, thử nghiệm phân tích, can thiệp ngẫu nhiên và bất kỳ loại thử nghiệm khoa học nào khác mà bạn có thể nghĩ đến đều sử dụng CLT. Phần kết luận

CLT có lợi ích là mạnh mẽ, điều này ngụ ý rằng lý thuyết vẫn có thể được áp dụng ngay cả khi dữ liệu đến từ nhiều phân phối khác nhau miễn là giá trị trung bình và phương sai của chúng bằng nhau.

Theo CLT, khi kích thước mẫu tăng lên, phương tiện mẫu hội tụ trên phương tiện dân số và sự khác biệt giữa chúng hội tụ thành phân phối chuẩn với phương sai bằng phương sai dân số. Nó rất quan trọng đối với cả việc sử dụng số liệu thống kê và sự hiểu biết về tự nhiên.

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo