Tính trung bình với mức ý nghĩa năm 2024

Trong thống kê, khoảng tin cậy (Confidence Invertal-CI) là thuật ngữ chỉ một loại ước lượng khoảng, dùng để biển diễn xác suất tham số tổng thể nằm giữa khoảng 2 giá trị.

CI được tính toán dựa trên số liệu thống kê của dữ liệu quan sát được. Theo đó, khoảng tin cậy có thể bao hàm giá trị thực của tham số quần thể chưa biết. Tuy vậy, khoảng tin cậy được không nhất thiết phải bao gồm giá trị thực của tham số.

  1. Các yếu tố ảnh hưởng đến CI

Trong xác suất thống kê bao giờ cũng sẽ có sai số, vậy các yếu tố ảnh hưởng đến CI là gì? Theo Jerzy Neyman, có 3 yếu tố tác động đến độ rộng của khoảng tin cậy là : độ tin cậy, kích thước mẫu và độ biến thiên của mẫu. Nghĩa là nếu độ tin cậy cao hơn sẽ có xu hướng tạo ra khoảng tin cậy có độ rộng hơn. Hoặc 1 mẫu có kích thước lớn hơn sẽ có xu hướng cho ra khoảng tin cậy tốt hơn về tham số quần thể.

  1. Ứng dụng của CI

Các nhà thống kê sử dụng CI để đo lường độ chắc chắc hoặc độ không chắc chắn. Khoảng tin cậy α% tính cho một tham số sẽ bao gồm 2 số có xác suất từ 1-α. Người ta có thể nói rằng độ tin cậy α% có giá trị chân thực nằm trong khoảng giữa 2 số đó.

Ví dụ : Từ cùng 1 tổng thể, ta chọn ngẫu nhiên ra 3 mẫu khác nhau và tính khoảng tin cậy cho mỗi mẫu. Khi đó kết quả khoảng tin cậy của mỗi mẫu là khác nhau dù cho 3 mẫu đều được lấy từ 1 tổng thể. Giả sử mẫu 1 có khoảng tin cậy là 1-95%, ta nói : ‘Chúng ta chắc chắc 95% rằng mẫu này có chứa tham số tổng thực tế’.

Khoảng tin cậy là một chỉ số giúp ta biết được tính chính xác của phép đo. Ngoài ra, nó cũng cho biết độ ổn định khi ước lượng 1 giá trị, tức là nhờ vào khoảng tin cậy, ta có thể biết được kết quả phép đo lặp lại sẽ sai lệch thế nào so với ước tính ban đầu.

  1. Hướng dẫn xác định Confidence Interval

Bước 1. Kiểm tra uớc đoán giá trị nghiên cứu

Giả sử bạn muốn nghiên cứu về cân nặng trung bình của sinh viên nam ở trường XYZ và ước đoán giá trị này là 81 kg. Bạn cần kiểm tra xem ước đoán của mình liệu có chính xác trong khoảng tin cậy cho trước hay không.

Bước 2. Chọn mẫu

Chọn mẫu là quá trình thu thập số liệu ngẫu nhiên nhằm kiểm tra giả thiết đã đặt ra. Chẳng hạn bạn có thể chọn ngẫu nhiên mẫu là 1000 sinh viên nam của trường XYZ.

Bước 3. Tính độ lệch chuẩn và giá trị trung bình của mẫu

Để tính giá trị trung bình của mẫu, bạn lấy trung bình cộng cân nặng của 1000 sinh viên nam. Nghĩa là tính tổng cân nặng của 1000 sinh viên nam đã chọn rồi đem chia cho 1000. Giả sử giá trị trung bình thu được là 81 kg.

Kế tiếp bạn tính độ lệch chuẩn của mẫu bằng cách: tìm giá trị trung bình của bình phương sai lệch so với giá trị trung bình rồi lấy căn bậc hai của giá trị thu được. Giả sử độ lệch chuẩn tính được là 14 kg.

Bước 4. Chọn khoảng tin cậy mong muốn

Chọn khoảng tin cậy mong muốn thường dựa trên Confidence Interval phổ biến. Thế Confidence Interval thường dùng là gì? Thông thường nhà nghiên cứu sẽ chọn các khoảng tin cậy là 90%, 95% hoặc 99%. Chẳng hạn, trong trường hợp này bạn có thể xét Confidence Interval là 95%.

Bước 5. Tính giới hạn sai số

Giới hạn sai số được tính theo công thức:Hệ số tin cậy x Sai số chuẩn

Trong đó:

Hệ số tin cậy = Khoảng tin cậy / 2

Ví dụ, trong bài toán nghiên cứu này, ta đang xét khoảng tin tin cậy là 95%, chuyển sang số thập phân là 0,95. Như vậy hệ số tin cậy sẽ tính bằng phép chia 0,95/2, ta được 0,475. Đối chiếu với bảngZ table (bảng hệ số tin cậy), bạn sẽtìm được giá trị tương ứng gần nhất với 0,475 là 1,96.

Sai số chuẩn = độ lệch chuẩn / căn bậc hai của kích cỡ mẫu.

Nghĩa là để tính sai số chuẩn trong trường hợp này, bạn lấy 14 (độ lệch chuẩn) chia cho căn bậc hai của 1000 (kích thước mẫu). Ta được 14/31,6 = 0,44 kg.

Từ hai kết quả trên, ta tính được giới hạn sai số bằng cách lấy 1,96 x 0,44 = 0,86 (kg).

Việc tính toán ý nghĩa thống kê (kiểm định ý nghĩa) có một mức lỗi có thể phát sinh nhất định. Nhà nghiên cứu phải xác định trước xác suất xảy ra lỗi khi lấy mẫu, lỗi này luôn luôn tồn tại trong bất kì phép thử nào không phải thực hiện lên toàn bộ tổng thể. Cỡ mẫu là một thành phần quan để có được kết luận có ý nghĩa thống kê hay không, trong đó các mẫu lớn hơn ít khi cho ra kết quả do ngẫu nhiên hơn. Chỉ nên sử dụng các mẫu đại diện ngẫu nhiên trong kiểm định ý nghĩa thống kê. Mức độ có thể chấp nhận một sự kiện có ý nghĩa thống kê hay không được gọi là mức ý nghĩa.

Các nhà nghiên cứu sử dụng một thông số thống kê được gọi là giá trị p (p-value) để phân biệt xem biến cố có nằm dưới mức ý nghĩa hay không; nếu có, kết quả có ý nghĩa thống kê. P-value là hàm của giá trị trung bình và độ lệch chuẩn có được từ việc lấy các mẫu dữ liệu. P-value cho biết xác suất mà theo đó một kết quả thống kê xảy ra do ngẫu nhiên hoặc do lỗi trong lấy mẫu. Nói cách khác, p-value chỉ ra rủi ro khi không có sự khác biệt hoặc mối quan hệ nào trong thực tế. P-value phải nằm dưới mức ý nghĩa để các kết quả có ý nghĩa thống kê.

Ngược lại với mức ý nghĩa là độ tin cậy, độ tin cậy được tính bằng 1 trừ đi mức ý nghĩa. Nó cho thấy mức độ tin cậy rằng kết quả thống kê không xảy ra do ngẫu nhiên hoặc do lỗi lấy mẫu. Mức độ tin cậy thông thường trong kiểm định thống kê là 95%, và mức ý nghĩa thông thường hay p-value là 5%.

  1. Một số lưu ý

Ý nghĩa thống kê không phải lúc nào cũng chỉ ra ý nghĩa thực tế, có nghĩa là kết quả không phải lúc nào cũng có thể được áp dụng cho các tình huống trong thế giới thực. Ngoài ra, ý nghĩa thống kê có thể bị hiểu sai khi các nhà nghiên cứu không sử dụng ngôn ngữ một cách cẩn thận trong báo cáo kết quả của họ. Bởi vì một kết quả có ý nghĩa thống kê không có nghĩa là nó không ngẫu nhiên, chỉ là xác suất ngẫu nhiên của nó đã được giảm đi nhiều. Hai chuỗi dữ liệu có mối tương quan chặt chẽ với nhau không có nghĩa là nó có quan hệ nhân quả. Ví dụ, số lượng phim mà nam diễn viên Nicolas Cage đóng trong một năm nhất định có mối tương quan

rất cao với số vụ chết đuối do tai nạn trong bể bơi. Nhưng mối tương quan này là không đúng vì không có lí thuyết nào có thể giải thích hai sự việc trên.

Một vấn đề khác có thể phát sinh với ý nghĩa thống kê là dữ liệu trong quá khứ và kết quả từ dữ liệu đó cho dù có ý nghĩa thống kê hay không, cũng không chắc chắn sẽ phản ánh các hiện tượng đang diễn ra hoặc trong tương lai. Trong đầu tư, điều này có thể thể hiện trong một mô hình định giá không có kết quả chính xác trong thời kì khủng hoảng tài chính khi các mối tương quan thay đổi và các biến không tương tác với nhau như bình thường. Ý nghĩa thống kê cũng có thể giúp nhà đầu tư nhận ra liệu một mô hình định giá tài sản có tốt hơn mô hình khác hay không.