Bài tập kiểm định tham số có lời giải năm 2024

  • 1. PHI THAM SỐ ThS HUỲNH TỐ UYÊN 1
  • 2. DỤNG KIỂM ĐỊNH THAM SỐ& PHI THAM SỐ ? Kiểm định phi tham số là một dạng kiểm định khi các điều kiện dành cho kiểm định tham số không phù hợp như: tổng thể không có phân phối chuẩn, dữ liệu thuộc vào các thang đo định danh, thứ bậc,…. hoặc khi dữ liệu xuất hiện nhiều các giá trị bất thường [ngoại lệ]. Việc sử dụng kiểm định tham số hay phi tham số phụ thuộc rất nhiều vào điều kiện tổng thể có hay không phân phối chuẩn như bảng so sánh dưới đây: Chú ý rằng các KĐPTS thì không mạnh bằng các KĐ có tham số. Thành thử nếu điều kiện cho phép dùng KĐTS được thỏa mãn, thì ta nên dùng KĐ có tham số.=> Để định nghĩa KĐ phi Ts ta xét các ví dụ sau: Kiểm định phi tham số Kiểm định tham số 1. Kiểm định sự bằng nhau của 2 trung vị [Med] trong trường hợp 2 mẫu độc lập. 1. Kiểm định sự bằng nhau của 2 trị trung bình trong trường hợp 2 mẫu độc lập. 2. Kiểm định trung vị [Med] 2. Kiểm định về giá trị trung bình trên 1 mẫu 3. Kiểm định sự bằng nhau của 2 trị trung vị trong trường hợp mẫu phối hợp từng cặp 3. Kiểm định sự bằng nhau của 2 trị trung bình trong trường hợp mẫu phối hợp từng cặp 4. Kiểm định Kruskal- Wallis 4. Phân tích phương sai 1 yếu tố [ANOVA]
  • 3. định xem việc làm thêm có ảnh hưởng đến kết quả học tập không người ta chọn ngẫu nhiên một số sinh viên và hỏi họ về kết quả học tập với thời gian làm thêm trong các khoảng : < 8 giờ/tuần; 8 – 16 giờ/tuần; >16 giờ/tuần. Nếu các giả định về các tổng thể có phân phối chuẩn và phương sai bằng nhau không được thỏa mãn thì việc kiểm định sẽ thực hiện như thế nào ? • Để đánh giá xem chương trình quảng cáo mới có cải thiện doanh số bán hàng của các cửa hàng trong cùng 1 tập đoàn không, người ta chọn ngẫu nhiên 8 cửa hàng và quan sát doanh số theo tháng của các cửa hàng này trước và sau khi áp dụng chương trình quảng cáo mới. Nếu giả định rằng cỡ mẫu không thể điều tra thêm và doanh số không tuân theo luật phân phối chuẩn thì việc kiểm định sẽ tiến hành như thế nào? Các ví dụ mở đầu 3
  • 4. 1 trung tâm hỗ trợ việc làm muốn kiểm tra xem mức thu nhập của sinh viên sau khi tốt nghiệp 2 năm có đạt được mức lương tối thiểu là 350 [USD] hay không với giả định rằng thu nhập của sinh viên không tuân theo phân phối chuẩn. • Để đánh giá xem phương thức bán hàng mới có cải thiện doanh số bán hàng của các cửa hàng trong cùng 1 tập đoàn không người ta đã chọn ngẫu nhiên 8 cửa hàng và quan sát doanh số theo tháng của các cửa hàng này trước và sau khi áp dụng phương thức bán hàng mới ? Nếu giả định rằng cỡ mẫu không thể điều tra thêm và doanh số không tuân theo phân phối chuẩn thì việc kiểm định sẽ tiến hành như thế nào ? Các ví dụ mở đầu 4
  • 5. Là kiểm định được xây dựng khi các giả thuyết của kiểm định tham số bị vi phạm hoặc trên 1 cỡ mẫu nhỏ hoặc trên các thang đo không có độ tin cậy cao. Khái niệm về KĐ phi tham số 5
  • 6. PHI THAM SỐ • Trên 1 mẫu: ߤ௘ ൌ ߤ଴ • Trên 2 mẫu phụ thuộc: ߤଵ ൌ ߤଶ [có thể đưa về 1 mẫu để KĐ trung vị] Kiểm định dấu và hạng Wilcoxon • Trên 2 mẫu độc lập ߤଵ ൌ ߤଶ Kiểm định tổng hạng Wilcoxon • Trường hợp ൒ 3 ݉ẫ‫ ݑ‬độܿ ݈ậ‫ ݌‬ሺNếu xếp hạng được]. Kiểm định Kruskal Wallis • Trường hợp ൒ 2 ݉ẫ‫ ݑ‬độܿ ݈ậ‫ ݌‬ሺNếu không xếp hạng được] [các dâu hiệu định tính]. Kiểm định Khi bình phương 6
  • 7. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 7 Kiểm định phi tham số Kiểm định tham số Kiẻm định trung vị [Med] Kiểm định về giá trị TB trên 1 mẫu Kiểm định sự bằng nhau của 2 trung vị trong trường hợp mẫu phối hợp từng cặp Kiểm định sự bằng nhau của 2 trung bình trong trường hợp mẫu phối hợp từng cặp 0 0 1 0 : : H Med Med H Med Med =  ≠ 0 0 1 0 : : H H µ µ µ µ =  ≠ 0 1 : 0 : 0 d d H Med H Med =  ≠ 0 1 : 0 : 0 d d H H µ µ =  ≠
  • 8. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 8 B5:Tính giá trị kiểm định W Kiểm định 2 bên [1]: Kiểmđịnh bên phải [2]: Kiểmđịnh bên trái [3]: B6:Tra bảng 6 Wilcoxon tìm giá trị cận dưới và cận trên ܹ௅, ܹெ ܿủܽ ܹഀ మ ௡ᇲ ሺKĐ 2 bên] ݄‫݋‬ặܿ ܹఈሺ௡ᇲ] [KĐ 1 bên] { }W= min coät R+; coät R-∑ ∑ W= coät R+∑ W= coät R-∑
  • 9. dưới ở bảng tra số 6, n’ = sốlượngDi≠≠≠≠0 9 Ta chỉ xét cận dưới vì kiểm định này luôn thực hiện ở bên trái Bác bỏ ‫ܪ‬଴ nếu ܹ ൏ ܹఈ;௡ᇱ Quy tắc bác bỏ
  • 10. mẫu lớn [n>20] 10 Trường hợp 2: mẫu lớn [ n’ > 20] giá trị kiểm định W sẽ xấp xỉ phân phối chuẩn với giá trị kiểm định Z tính theo công thức sau: B5: Với - W W W Z µ σ = [ ]' ' 1 4W n n µ + = [ ][ ]' ' 1 2 ' 1 24W n n n σ + + =
  • 11. bỏ cho trường hợp mẫu lớn [KĐ dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc] 11 B6: Quy tắc bác bỏ Kiểm định [1]: Bác bỏ H0 khi |Z|>Zα/2 Kiểm định [2]: Bác bỏ H0 khi Z >Zα Kiểm định [3]: Bác bỏ H0 khi Z < -Zα
  • 12. trọng lượng của 1 số quả, người ta có bảng kết quả: Với mức ý nghĩa 5%, có thể cho rằng Med = 350? Đặt giả thiết: Xi [g] 300 320 340 380 420 400 300 340 360 400 410 0 1 3 5 0 3 5 0 H H   = ≠
  • 13. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 13 Trường hợp 1: Mẫunhỏ [n≤≤≤≤20] B1:Tính chênh lệch Di giữa giá trị quan sát và giá trị trung vị Di = Xi –‫݀݁ܯ‬଴ B2:Lấy trị tuyệt đối |Di | Xi [g] 300 320 340 380 420 400 300 340 360 400 410 Di -50 -30 -10 30 70 50 -50 -10 10 50 60 |Di| 50 30 10 30 70 50 50 10 10 50 60
  • 14. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 14 B3:Xếp hạng cho |Di|, + nếu |Di|=0 thì không xếp hạng + n u |Di|്0 thì nguyên t c x p h ng như sau: Xi [g] Di |Di| 300 -50 50 320 -30 30 340 -10 10 380 30 30 420 70 70 400 50 50 300 -50 50 340 -10 10 360 10 10 400 50 50 410 60 60
  • 15. hạng + Giá trị ‫ܦ‬௜ nhỏ nhất xếp hạng1, lớn nhất xếp hạng n, + Nếu tồn tại các ‫ܦ‬௜ bằng nhau thì tính hạng trung bình cho tất cả các ‫ܦ‬௜ này. + Nếu ‫ܦ‬௜ =0 thì không được xếp hạng Xếpthứtụ ‫ܦ‬௜ Hạng 1 10 2 10 3 10 4 30 5 30 6 50 7 50 8 50 9 50 10 60 11 70 11 7,5 4,5 2 10 7,5 2 4,5 7,5 2 7,5
  • 16. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 16 B3: Xếp hạng cho |Di|, nếu |Di|=0 thì không xếp hạng B4: Thêm 2 cột R+ và R- R+ : gồm những hạng của Di >0 R- : gồm những hạng của Di 23,5 ∈[13, 53] Quy tắc bác bỏ : ܶܽ ܿó ܹ ൐ ܹఈ ⇒ch pnh n H0 { }=0 W = min 42,5 ; 23,5 23,5 { }∑ ∑0 W = min coät R+; coät R-
  • 18. 1 trung tâm hỗ trợ việc làm muốn kiểm tra xem mức thu nhập của sinh viên sau khi tốt nghiệp 2 năm có đạt được mức lương tối thiểu là 350 [USD] hay không với giả định rằng thu nhập của sinh viên không tuân theo phân phối chuẩn. Kiểm tra ngẫu nhiên 10 SV cũ của trường với giá trị được cho ở bảng SV 1 2 3 4 5 6 7 8 9 10 Lương 364 385 270 350 290 400 520 340 389 410 Với mức ý nghĩa 5% hãy cho kết luận về giả thiết cho rằng giá trị trung vị về thu nhập SV tốt nghiệp sau 2 năm làm việc vượt quá con số 350USD
  • 19. đ nh trung v [Med] Đ t gi thi t: ‫ܪ‬଴: ‫݀݁ܯ‬ ൒ 350, ‫ܪ‬ଵ: ‫݀݁ܯ‬ ൏ 350 Lương ሺ࢞࢏] ࢊ࢏ ൌ ࢞࢏ െ ૜૞૙ |ࢊ࢏| Hạng R+ R- 364 14 385 35 270 -80 350 0 290 -60 400 50 520 170 340 -10 389 39 410 60 Giá tr KĐ bên trái: ܹ଴ ൌ ∑ ܿộ‫ܴ ݐ‬ െൌ 15,5 Tra b ng wilcoxon ta có ܹ ߙ; ݊ᇱ ൌ ܹ 0,05; 9 ൌ 8; 37 ⟹ ܹ଴ ൐ 8 ⇒ ݄ܿấ‫݄݊ ݌‬ậ݊ ‫ܪ‬଴. ܾáܿ ܾỏ ‫ܪ‬ଵ K t lu n: v i m c ý nghĩa 5% không th nói r ng lương trung v c a SV...
  • 20. KĐ trung vị của 1 tổng thể 20 Trường hợp 2: Mẫu lớn [n>20] B5: tính Z Trong đó B6: Kiểm định 1 bên: Z < -Zα ⇒Bác bỏ H0 Kiểm định 2 bên: Z < -Zα/2 ⇒Bác bỏ H0 [ ] [ ][ ] n n+1 W- 4Z= 1 2 1 24 n n n+ + W= coät R+∑
  • 21. sự bằng nhau 2 trị TB cho TH 2 mẫu phụ thuộc [mẫu phối hợp từng cặp] 1. Kiểm định dấu và hạng Wilcoxon 21 [ ] 0 1 : 0 1 : 0 d d H M H M  =  ≠ [ ] 0 1 : 0 2 : 0 d d H M H M  ≤  > [ ] 0 1 : 0 3 : 0 d d H M H M  ≥  Xếp hạng các giá trị này [theo nguyên tắc xếp hạng]. • Bước 4:Với giá trị ௜ thì ta đặt hạng của nó vào cột R+ và ngược lại thì vào cột R- 1. Kiểm định dấu và hạng Wilcoxon [TH KĐ 2 mẫu phụ th uộc] 22
  • 23. dấu và hạng Wilcoxon về trung vị của 1 tổng thể 23 B5:Tính giá trị kiểm định W Kiểm định 2 bên : Kiểmđịnh bên phải: Kiểmđịnh bên trái: B6:Tra bảng 6 Wilcoxon tìm giá trị cận dưới và cận trên ܹ௅, ܹெ ܿủܽ ܹഀ మ ௡ᇲ ሺKĐ 2 bên] ݄‫݋‬ặܿ ܹఈሺ௡ᇲ] [KĐ 1 bên] { }W= min coät R+; coät R-∑ ∑ W= coät R+∑ W= coät R-∑
  • 24. ở bảngtrasố 6, n’ = sốlượngDi≠≠≠≠0 24 Ta ch xét c n dư i vì ki m đ nh này luôn th c hi n bên trái Bác b ‫ܪ‬଴ n u ܹ ൏ ܹఈ;௡ᇱ Quy tắc bác bỏ
  • 25. dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc 25 Ví dụ: Để kiểm tra hiệu quả của 1 khóa học, ta theo dõi kĩ khả năng đọc của trẻ em trước và sau khi học. Kết quả như sau: Với mức ý nghĩa 5%, khóa học này có hiệu quả hay không ? Giải: ‫ܯ‬ௗ ൌ ‫ݎݐ‬ướܿ െ ‫ݑܽݏ‬ Trước Sau 60 63 40 38 78 77 53 50 67 74 88 96 77 80 60 70 64 65 75 75 0 1 : 0 : 0 d d H M H M  ≥  0 Trước Sau 60 63 40 38 78 77 53 50 67 74 88 96 77 80 60 70 64 65 75 75 Di -3 2 1 3 -7 -8 -3 -10 -1 0 |Di| 3 2 1 3 7 8 3 10 1 0 Hạng 5 3 1,5 5 7 8 5 9 1,5 R+ 3 1,5 5
  • 27. bác bỏ : Tra bảng 6 để tìm giới hạn trênvà giới hạn dướiWα[n’]=ሺܹ଴,଴ହ; ଽ]=[8,37] Kiểmđịnh [3]: [KĐ bêntrái] Ta có ܹ଴ ൌ 35,5 ൐ ܹ௅ ൌ 8 ⇒ ݄ܿấ‫݄݊ ݌‬ậ݊ ‫ܪ‬଴ 0 W = coät R- 35,5=∑
  • 28. dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc 28 Trường hợp 2: mẫu lớn [ n’ > 20] giá trị kiểm định W sẽ xấp xỉ phân phối chuẩn với giá trị kiểm định Z tính theo công thức sau: B5: Với - W W W Z µ σ = [ ]' ' 1 4W n n µ + = [ ][ ]' ' 1 2 ' 1 24W n n n σ + + =
  • 29. bỏ cho trường hợp mẫu lớn [KĐ dấu và hạng Wilcoxon cho 2 mẫu phụ thuộc] 29 B6: Quy tắc bác bỏ Kiểm định [1]: Bác bỏ H0 khi |Z|>Zα/2 Kiểm định [2]: Bác bỏ H0 khi Z >Zα Kiểm định [3]: Bác bỏ H0 khi Z < -Zα
  • 30. gồm 9 khách hàng được chọn ngẫu nhiên và yêu cầu họ cho biết về sở thích của 2 loại kem đánh răng A và B thông qua thang điểm từ 1 [thấp nhất] đến 5 [cao nhất]. Kết quả thu thập số liệu như sau: Khách hàng 1 2 3 4 5 6 7 8 9 Sản phẩm A 4 5 2 3 3 1 3 2 2 Sản phẩm B 3 5 5 2 5 5 3 5 5 Với mức ý nghĩa 5% hãy kiểm định giả thuyết kem đánh răng A được ưa thích hơn kem đánh răng B. Đ t gi thi t ቊ ‫ܪ‬଴: ‫݀݁ܯ‬ௗ ൑ 0 ‫ܪ‬ଵ: ‫݀݁ܯ‬ௗ ൐ 0 ‫ݒ‬ớ݅ ‫݀݁ܯ‬ௗ ൌ ‫݀݁ܯ‬஺ െ ‫݀݁ܯ‬஻
  • 31. 1 2 3 4 5 6 7 8 9 Sản phẩm A 4 5 2 3 3 1 3 2 2 Sản phẩm B 3 5 5 2 5 5 3 5 5 Bài toán ki m đ nh s b ng nhau c a 2 tr trung bình trong TH m u ph i h p t ng c p. B1: Đ t g thi t: ቊ ‫ܪ‬଴: ‫݀݁ܯ‬ௗ ൑ 0 ‫ܪ‬ଵ: ‫݀݁ܯ‬ௗ ൐ 0 ‫ݒ‬ớ݅ ‫݀݁ܯ‬ௗ ൌ ‫݀݁ܯ‬஺ െ ‫݀݁ܯ‬஻ Ta có: Khách hàng 1 2 3 4 5 6 7 8 9 Tổng Sản phẩm A[‫ݔ‬஺] 4 5 2 3 3 1 3 2 2 Sản phẩm B[‫ݔ‬஻] 3 5 5 2 5 5 3 5 5 ݀௜ ൌ ‫ݔ‬஺ െ ‫ݔ‬஻ 1 0 -3 1 -2 -4 0 -3 -3 |݀௜| 1 3 1 2 4 3 3 Hạng R+ R-
  • 32. ki m đ nh Ki m đ nh bên ph i: ܹ଴ ൌ ∑ ܿộ‫ܴ ݐ‬ ൅ൌ 3 Tra b ng Wilcoxon ta tìm đư c ܹఈ,௡ᇱ ൌ ܹ଴,଴ହ;଻ ൌ 2; 26 ⇒ ܹ଴ ൐ 2 ⇒ ݄ܿấ‫݄݊ ݌‬ậ݊ ‫ܪ‬଴ K t lu n V i m c ý nghĩa 0,05 không th nói r ng khách hàng ưa thích s n ph m kem đánh răng A hơn B 32
  • 33. Whitney] 2. Kiểm định tổng hạng Wilcoxon cho trung bình 2 mẫu độc lập 33
  • 34. tổng hạng Wilcoxon cho trung bình 2 mẫu độc lập [Mann-Whitney] 34 Kiểm định tổng hạng có dấu Wilcoxon được sử dụng trong trường hợp sau đây: + Mục đích nghiên cứu nhằm so sánh 2 tổng thể. + Số liệu định lượng nhưng giả thuyết về phân phối chuẩn của ߤଵ െ ߤଶ bị vi phạm. + Hai mẫu độc lập. Các bước kiểm định Bước 1: Đặt giả thuyết Bước2: xếp hạng tất cả các giá trị của 2 mẫu theo thứ tự tăng dần. Những giá trị bằng nhau sẽ nhận giá trị trung bình. Bước 3: có 2 trườnghợp [ ] [ ] [ ]0 1 2 0 1 2 0 1 2 1 1 2 1 1 2 1 1 2 : : : 1 2 3 : : : H H H H H H µ µ µ µ µ µ µ µ µ µ µ µ   = ≥ ≤      ≠ < >    
  • 35. tổng hạng Wilcoxon cho trung bình 2 mẫu độc lập 35 Trườnghợp 1 [mẫu nhỏ [࢔૚, ࢔૛ ൑ ૚૙] Trường hợp 2 mẫu lớn [࢔૚ ൅ ࢔૛ ൐ ૛૙] Lấy tổng hạng T1 của mẫu nhỏ. Nếu 2 mẫu bằng nhau thì lấy tổng hạng của mẫu nào cũng được. B3: Quy tắc bác bỏ Dùng bảng tra 7 để tìm giới hạn trên và dưới Kiểm định [1]:Bác bỏ H0 khi T1 ≤ giới hạn dưới hoặc T1 ≥giới hạn trên Kiểmđịnh [2]:Bác bỏ H0 khi T1 ≥giới hạn trên Kiểmđịnh [3]:Bác bỏ H0 khi T1 ≤ giới hạn dưới phân phối của ܶଵ được xem như chuẩn với ߤ்భ ൌ ݊ଵሺ݊ ൅ 1] 2 ; ߪ்భ ൌ ݊ଵ݊ଶሺ݊ ൅ 1] 12 Tính ܼ ൌ ்భିఓ೅భ ఙ೅భ B3:Quy tắc bác bỏ Kiểmđịnh [1]:Bác bỏ H0 khi |Z|>Zα/2 Kiểmđịnh [2]:Bác bỏ H0 khi Z > Zα Kiểmđịnh [3]:Bác bỏ H0 khi Z 20] B2: tính Z Với 1 1 1 T T T Z µ σ − = [ ]1 1 1 2T n n µ + = [ ]1 2 1 1 1 2T n n n σ + =
  • 40. tổng hạng Wilcoxon cho trung bình 2 mẫu độc lập 40 B3: Quy tắc bác bỏ Kiểm định [1]: Bác bỏ H0 khi |Z|>Zα/2 Kiểm định [2]: Bác bỏ H0 khi Z > Zα Kiểm định [3]: Bác bỏ H0 khi Z < -Zα
  • 41. kiểm định xem việc trưng bày hàng hóa có tác động đến doanh số không người ta chọn ngẫu nhiên 2 mẫu, mẫu thứ 1 gồm 10 cửa hàng trưng bày bình thường, mẫu thứ 2 cũng gồm 10 cửa hàng trưng bày đặc biệt sau đó quan sát doanh số của các cửa hàng này [đơn vị: triệu đồng/tháng] ta được bảng số liệu sau: 41 Doanh số [t.bày BT] 22 34 52 62 30 40 64 84 56 59 Doanh số [t.bày ĐB] 52 71 76 54 67 83 66 90 77 84
  • 42. [t.bày BT] 22 34 52 62 30 40 64 84 56 59 Doanh số [t.bày ĐB] 52 71 76 54 67 83 66 90 77 84 Đ t gi thi t: ቊ ‫݀݁ܯ‬ଵ ൌ ‫݀݁ܯ‬ଶ ‫݀݁ܯ‬ଵ ് ‫݀݁ܯ‬ଶ ta có Doanh số Hạng kết hợp 22 1 30 2 34 3 40 4 52 5,5 52 5,5 54 7 56 8 59 9 62 10 Doanh số Hạng kết hợp 64 11 66 12 67 13 71 14 72 15 77 16 83 17 84 18,5 84 18,5 90 20
  • 43. [t.bày BT] 22 34 52 62 30 40 64 84 56 59 ෍ Hạng [trưng bày BT] 1 3 5,5 10 2 4 11 18,5 8 9 72 Doanh số [t.bày ĐB] 52 71 76 54 67 83 66 90 77 84 Hạng [trung bày ĐB] 5,5 14 15 7 13 17 12 20 16 18,5 138 Doanh số Hạng kết hợp 22 1 30 2 34 3 40 4 52 5,5 52 5,5 54 7 56 8 59 9 62 10 Doanh số Hạng kết hợp 64 11 66 12 67 13 71 14 72 15 77 16 83 17 84 18,5 84 18,5 90 20
  • 44. 72 Tra bảng Wilcoxon tìm giá trị ܹఈ ଶ;௡భ;௡మ ൌ ܹ଴,଴ଶହ;ଵ଴;ଵ଴ ൌ 78; 132 Ta có ܶଵ ∉ ሺ78; 132]=> bác bỏ ‫ܪ‬଴ Kết luận Với mức ý nghĩa 0,05 có sự khác biệt về doanh số giữa trưng bày bình thường và trưng bày đặc biệt. 44
  • 45. Kruskal Wallis Giả sử ta có k mẫu gồm phần tử được chọn từ k tổng thể. là các trung bình của k tổng thể đó 1 2, ,..., kn n n µ µ µ1 2, ,..., k NHÓM 1 2 … k … … … … … … … 11x 11nx 21x 22nx 1kx kknx k tổng thể chưa biết phân phối , không có giả thiết phương sai bằng nhau 0 1 2 1 : ... :toàn taïi ít nhaát 1 caëp trung bình khaùc nhau kH H µ µ µ= = =  
  • 46. Phân tích phương sai 1 yếu tố [ANOVA] •- Phân tích sâu ANOVA [Tukey] 4. Kiểm định Kruskal Wallis 46 Kiểm định phi tham số Kiểm định tham số Kiểm định Kruskal_Walis - Phân tích phương sai 1 yếu tố [ANOVA] - Phân tích sâu ANOVA [Tukey] Ki m đ nh Kruskal_Walis v tính đ c l p K m đ nh K-W là phương pháp phân tích phương sai s d ng h ng c a các giá tr quan sát, dùng đ so sánh trung bình c a k t ng th . Khi ch có 2 t ng th , ki m đ nh K-W tương t như ki m đ nh M_W [đã h c]
  • 47. K-W 47 Các bước kiểm định Bước 1: Đặt giả thuyết ቊ ‫ܪ‬଴: ߤଵ ൌ ߤଶ ൌ ⋯ ൌ ߤ௞ ‫ܪ‬ଵ: ∃! ߤ௜ ് ߤ௝ሺ݅ ് ݆] Bước2: xếp hạng tất cả các giá trị của k mẫu theo thứ tự tăng dần. Những giá trị bằng nhau sẽ nhận hạng trung bình. Bước 3: Cộng các hạng của tất cả các giá trị của từng mẫu lại, ký hiệu R1,R2,…, R3 Bước4: Tính giá trị kiểm định ࢃ ൌ ࣑૛ ൌ ૚૛ ࢔ሺ࢔ ൅ ૚] ෍ ࡾ࢏ ૛ ࢔࢏ െ ૜ሺ࢔ ൅ ૚] ࢑ ࢏ୀ૚ Bư c5: So sánh và k t lu n Qui tắc quyết định: Bác bỏ gt ࡴ૙ nếu ࣑૛ ൐ ࣑࢑ି૚ ૛ [với ߯௞ିଵ ଶ có phân phối ߯ଶ với [k-1] bậc tự do. Tồn tại ít nhất một cặp trung bình khác nhau
  • 48. Kruskal Wallis 48 Ví dụ 1: Để xét xem thời gian làm thêm có ảnh hưởng đến kết quả học tập hay không, người ta điều tra mẫu sau: Nhóm 1: làm thêm ít 12 giờ/tuần 6.3 7.2 6.3 7.0 6.6 5.8 6.5 6.1 6.0 6.6 5.8 5.5 7.3 6.8 5.3 6.9 7.1 6.5 6.4 5.9 5.4 6.2 Kiểm định xem thời gian làm thêm có ảnh hưởng đến kết quả học tập không?
  • 49. xếp hạng Bước 1: Xếp hạng Nguyên tắc xếp hạng: giá trị xij nhỏ nhất xếp hạng 1, lớn nhất xếp hạng n, nếu tồn tại các xij bằng nhau thì tính hạng trung bình cho tất cả các xij này Nhóm 1: Hạng Nhóm 2: Hạng Nhóm 3: Hạng 6.3 7.2 6.3 7.0 6.6 5.8 6.5 6.1 6.0 6.6 5.8 5.5 7.3 6.8 5.3 6.9 7.1 6.5 6.4 5.9 5.4 6.2 4,5 1 2 34,5 6 78 9 10,510,5 12 13,5 13,5 15,5 15,5 17 18 19 20 21 22
  • 50. kiểm định K-W 50 Bước 2: Tính W Trong đó Ri là tổng hạng của nhóm thứ i Ví dụ: 2 1 12 3[ 1] [ 1] k i ii R W n n n n = = − + + ∑ [ ] 2 2 2 12 110,5 92 50,5 3 22 1 22[22 1] 7 7 8 8,6 W   = + + − +   +   =
  • 51. kiểm định K-W 51 Bước 3: Nếu W > ⇒ Bác bỏ H0 Trong đó, tra bảng chi bình phương Ví dụ: Bác bỏ Ho. Vậy với độ tin cậy 95%, thời gian làm thêm có ảnh hưởng đến kết quả học tập của sinh viên. 2 1,k αχ − 2 1,k αχ − 2 2;0.058,6 5,99W χ= > =
  • 52. sâu K-W 52 Bước 1: tính hạng trung bình Bước 2: tính chênh lệch hạng trung bình i i i R R n = jij iD R R= − Ví dụ: 1 1 1 2 110,5 15,786 7 13,143 R R n R = = = = 12 2,643D = 0 1 2 1 1 2 : : H H µ µ µ µ =  ≠
  • 53. sâu K-W 53 Bước 3: tính Ck [ ]2 1, 1 1 1 12k i j k n n C n nαχ −  +  = +      Ví dụ: [ ]22 22 1 1 1 5,99 8,5 12 7 7kC +   = + =     
  • 54. sâu K-W 54 Bước 4: Bác bỏ Ho khi Dij > Ck Ví dụ: 12 2,643 8,5 chaáp nhaän Ho kD C= < = ⇒
  • 55. định Chi bình phương [࣑૛] về tính độc lập • 5.2 Kiểm định Chi bình phương [࣑૛ ] về sự phù hợp. ࣑ ] 5. Kiểm định Chi bình phương [࣑૛ ] 55
  • 56. Chi bình phương [࣑૛ ] về tính độc lập 56 Phần này ta sẽ nói đến phương pháp kiểm định dùng phân phối ߯ଶ , với dữ liệu là số đếm hoặc tần số. Trong nhiều trường hợp, phân tích߯ଶ trở nên phổ biến và tiện lợi khi dữ liệu thu thập ở dạng số đếm – chẳng hạn, số lượng người ở những độ tuổi , giới tính, nghề nghiệp, hoặc thu nhậpkhác nhau; số lượng sản phẩm sản xuất với số lỗi khác nhau,…
  • 57. Chi bình phương 57 Kiểm định sự độc lập của 2 biến định tính Ví dụ: Nghiên cứu ảnh hưởng của thời gian tự học đến kết quả học tập; hoàn cảnh gia đình đến tình trạng phạm tội ở trẻ em; thời gian tìm hiểu trước hôn nhân [ngắn, dài,…] đến tình trạng hôn nhân [hạnh phúc, không hạnh phúc,…]
  • 58. Chi bình phương 58 Giả sử ta cần nghiên cứu xem 2 yếu tố A và B có ảnh hưởng đến nhau hay không Xij gọi là tần số thực tế B A 1 2 … k Tổng 1 X11 X12 … X1k A1 2 X21 X22 … X2k A2 … … … … … … h Xh1 Xh2 … Xhk Ah Tổng B1 B2 … Bk n ijX
  • 59. Chi bình phương 59 0 1 :2 bieán ñònh tính A vaø B ñoäc laäp :2 bieán ñònh tính A vaø B phuï thuoäc H H    [ ]Böôùc 1: goïi laø taàn soá lyù thuyeát i j ij ij A B E E n × = [ ] 2 2 1 1 Böôùc 2: k h ij ij i j ij X E E χ = = − = ∑∑ 2 2 [ 1] [ 1]; Böôùc 3: Baùc boû Ho khi h k α χ χ − × − >
  • 60. Chi bình phương 60 Ví dụ: Trang 298 Nghiên cứu về mối liên hệ giữa thời gian tìm hiểu trước hôn nhân [ngắn , dài, trung bình] và tình trạng hôn nhân hiện tại [hạnh phúc, không hạnh phúc, li dị] Thời gian tìm hiểu Cuộc sống hiện tại Ngắn Trung bình Dài Tổng hàng Hạnh phúc 38 58 54 150 Không hạnh phúc 12 14 4 30 Li dị 10 8 2 20 Tổng cột 60 80 60 200
  • 61. Chi bình phương 61 0 1 : khoâng coù lieân heä giöõa thôøi gian tìm hieåu tröôùc hoân nhaân vaø tình traïng hieän taïi cuûa hoân nhaân : coù lieân heä giöõa thôøi gian tìm hieåu tröôùc hoân nhaân vaø tình traïng hieän taïi H H cuûa hoân nhaân       
  • 62. Chi bình phương 62 Bước 1: tính Eij [tần số lý thuyết] Thời gian tìm hiểu Cuộc sống hiện tại Ngắn Trung bình Dài Tổng hàng Hạnh phúc 45 60 45 150 Không hạnh phúc 9 12 9 30 Li dị 6 8 6 20 Tổng cột 60 80 60 200 1 2 12 150 80 200 A B E n × × = =
  • 63. Chi bình phương 63 Bước 2: Bước 3: ⇒ Bác bỏ Ho. Vậy với độ tin cậy 95%, có thể kết luận có mối liên hệ giữa thời gian tìm hiểu trước hôn nhân và tình trạng hôn nhân hiện tại. [ ] [ ] [ ] 2 2 2 2 38 45 58 60 2 6 ... 12,4 45 60 6 χ − − − = + + + = 2 2 [3 1] [3 1];0,05 4;0,05 2 12,4 9,48χ χ χ− × −= > = =
  • 64. Chi bình phương [࣑૛ ] về sự phù hợp 64 Kiểm định Chi bình phương được sử dụng khá phổ biến đối với các biến định tính [phân loại]. Phần trước ta đã xét tính độc lập của 2 biến định tính [tức xét mối liên hệ giữa biến định tính này với biến định tính khác]. Trong thực tế, các kiểm định tham số đã nghiên cứu đều có giả định các dữ liệu lấy từ tổng thể có phân phối chuẩn. Vậy, vấn đề đặt ra là làm thế nào để kiểm tra dữ liệu của chúng ta có phân phối chuẩn hay không hay nó theo một phân phối dự kiến nào đó. Muốn làm được điều này chúng ta sẽ xét đến bài toán kiểm định Chi bình phương về sự phù hợp để xem xét dữ liệu của chúng ta thích hợp [phù hợp] đến mức độ nào với giả thuyết về phân phối của tổng thể.
  • 65. tế Số vụ Hai 7 Ba 3 Tư 3 Năm 2 Sáu 5 Bảy 12 Total 32 Một công ty muốn nghiên cứu các vụ tai nạn lao động có xảy ra như nhau vào các ngày làm việc trong tuần hay không hay là nó có xu hướng tăng cao vào các ngày thứ Hai và các ngày cuối tuần. Điều tra một mẫu được cho ở bảng sau: Nhận xét: Nếu giả thiết cho rằng “ các vụ tai nạn xảy ra với xác suất như nhau trong 6 ngày làm việc của tuần là đúng thì số tai nạn phải có phân phối đều với xác suất mỗi ngày là 1/6. Với tổng số 32 vụ tai nạn lao động công ty đó thu thập được trong vòng 5 năm qua tại các nhà máy của công ty, số lượng các vụ tai nạn trong từng ngày phải bằng nhau và phải bằng 1/6.32=5,33 vụ.
  • 66. s li u trên dư ng như các v tai n n x y ra không đ u nhau gi a 6 ngày làm vi c trong tu n. Đ t gi thuy t ‫ܪ‬଴: tai n n lao đ ng các ngày trong tu n có phân ph i đ u. ‫ܪ‬ଵ: tai n n lao đ ng các ngày trong tu n không có phân ph i đ u. Thứ Thực tế [ࡻ࢏] Giả thiết [‫ܧ‬௜] ܱ௜ െ ‫ܧ‬௜ ଶ ܱ௜ െ ‫ܧ‬௜ ଶ ‫ܧ‬௜ Số vụ % Số vụ % Hai 7 21,9 5,33 16,66 2,79 0,523 Ba 3 9,4 5,33 16,66 5,29 0,998 Tư 3 9,4 5,33 16,66 5,29 0,998 Năm 2 6,3 5,33 16,66 10,89 2,055 Sáu 5 15,6 5,33 16,66 0,09 0,017 Bảy 12 37,5 5,33 16,66 44,89 8,470 Total 32 100,0 32 100,0 13,061
  • 67. lý thuyết là tần số xảy ra nếu giả thiết ‫ܪ‬଴ đúng [trong ví dụ trên thì tần số lý thuyết là 5,33 vụ tai nạn/ngày]. Đại lượng thống kê Chi bình phương được tính như sau: ߯௧௧ ଶ ൌ ෍ ܱ௜ െ ‫ܧ‬௜ ଶ ‫ܧ‬௜ ௞ ௜ୀଵ Trong đó: + ܱ௜: ݈à ‫ݐ‬ầ݊ ‫ݏ‬ố ‫ݏ ݊ܽݑݍ‬á‫݄ݐ ݐ‬ựܿ ‫ݐ‬ế ܿủܽ ݈‫݋‬ạ݅ ‫݄ݐ‬ứ ݅ ở đâ‫݈ ݕ‬à ݊݃à‫ݕ‬ . + ‫ܧ‬௜: là tần số lý thuyết của loại thứ i. + ݇: ݈à ‫ݏ‬ố ‫݄݌‬â݊ ݈‫݋‬ạ݅ ሺ‫ݏ‬ố ݊݃à‫݈ ݕ‬à݉ ‫݅ݒ‬ệܿ ‫ݑݐ ݃݊݋ݎݐ‬ầ݊ ݇ ൌ 6]. Bác bỏ ࡴ૙ khi ࣑࢚࢚ ૛ ൐ ࣑࢑ି૚; ࢻ ૛ Ta có ߯௧௧ ଶ ൌ 13,061 ൐ ߯଺ିଵ;଴,଴ହ ଶ ൌ 11,07 → ܾáܿ ܾỏ ‫ܪ‬଴ Như vậy, tai nạn lao động các ngày trong tuần không có phân phối đều. Do đó, ta có bằng chứng để bác bỏ giả thiết tai nạn lao động các ngày trong tuần có phân phối đều. Theo bảng tổng hợp, căn cứ vào cột ܱ௜ ta thấy tai nạn có nhiều khả năng xảy ra vào đầu tuần và nhất là 2 ngày cuối tuần. Vì vậy, công ty nên áp dụng các biện pháp đặc biệt để đề phòng tai nạn lao động vào những ngày này.
  • 68. DẠNG KIỂM ĐỊNH 68 1]Kiểm định chi bình phương về sự độc lập của 2 biến định tính: Đây là bài toán xét đồng thời hai dấu hiệu định tính [2 mẫu ngẫu nhiên độc lập được xét] trên 1 tổng thể. 2] Kiểm định chi bình phương về sự phù hợp Đây là bài toán kiểm định một một mẫu ngẫu nhiên được thu thập [sau đó phân nhóm theo nhiều đặc điểm] có tuân theo phân phối A hay không [tức là một dấu hiệu định tính được phân ra nhiều nhóm định tính]
  • 69. hóa mỹ phẩm A vừa đưa vào thị trường loại dầu gội đầu mới, dành riêng cho phái Nam. Có ý kiến cho rằng, chỉ có 30% Nam giới sẽ ưa chuộng loại sản phẩm mới này. Chọn ngẫu nhiên 20 người [nam] đã dùng qua sản phẩm và hỏi ý kiến, chỉ có 3 người ưa thích loại dầu gội mới này, còn lại 17 người là không thích. Như vậy ý kiến trên có đúng không với mức ý nghĩa 5%? Ví dụ: 69
  • 70. thiết • ‫ܪ‬଴: ‫݌‬ ൌ 0,03 • ‫ܪ‬ଵ: ‫݌‬ ് 0,03 • Theo nhận định có 30% trong tổng số 20 người nam ưa thích dầu gội tức là có: 20x0,3=6 • Ta có: Giải [KĐ chi bình phương về sự phù hợp] 7 0 Ưa thích Không ưa thích Tổng cộng ݄ܶựܿ ‫ݐ‬ế ሺܱ௜] 3 17 20 ‫݅ܩ‬ả ‫݄݅ݐ‬ế‫ ݐ‬ሺ‫ܧ‬௜] 6 14 20 Giá tr ki m đ nh ߯௧௧ ଶ ൌ ෍ ܱ௜ െ ‫ܧ‬௜ ଶ ‫ܧ‬௜ ൌ 3 െ 6 ଶ 6 ൅ 17 െ 14 ଶ 14 ൌ ଶ ௜ୀଵ 2,14 Khi đó ߯௧௧ ଶ ൌ 2,14 ൏ ߯ଶିଵ;଴,଴ହ ଶ ൌ 3,84 → ݄ܿấ‫݄݊ ݌‬ậ݊ ‫ܪ‬଴ V y, v i m c ý nghĩa 5% không th bác b gi thi t cho r ng 30% nam giói ưa chu ng d u g i đàu m i A [m c dù t l m u ch là 15%].
  • 71. gi ng ví d trên nhưng cho n i dung như sau: Gi s có 2 lo i d u g i m i dành cho phái nam. Vói m u ng u nhiên 20 ngư i Nam trong s nh ng ngư i đã t ng dùng s n ph m th nh t, có 3 ngư i ưa thích lo i d u g i này; m u th 2 cũng g m 20 ngư i nam đã t ng dùng qua s n ph m th hai, có 9 ngư i ưa thích lo i d u g i m i này. Câu h i đ t ra là: Có th cho r ng đ i v i 2 s n ph m m i này, t l khách hàng nam ưa thích chúng là b ng nhau v i m ý nghĩa 5% ?
  • 72. Áp d ng KĐ chi bình phương v tính đ c l p G i ‫݌‬ଵ, ‫݌‬ଶ l n lư t là t l khách hàng nam ưa thích lo i d u g i 1 và 2. Đ t gi thuy t: ‫ܪ‬଴: ‫݌‬ଵ ൌ ‫݌‬ଶ ‫ܪ‬ଵ: ‫݌‬ଵ ് ‫݌‬ଶ K t qu tính t n s lý thuy t đư c cho trong b ng sau: Ưa thích Không ưa thích ܱ௜ ‫ܧ‬௜ ܱ௜ ‫ܧ‬௜ Loại dầu gội 1 3 6 17 14 Loại dầu gội 2 9 6 11 14 Giá trị kiểm định ߯௧௧ ଶ ൌ 3 െ 6 ଶ 6 ൅ 9 െ 6 ଶ 6 ൅ 17 െ 14 ଶ 14 ൅ 11 െ 14 ଶ 14 ൌ 4,28 Vì ߯௧௧ ଶ ൌ 4,28 ൐ ߯ଵ; ଴,଴ହ ଶ ൌ 3,84. Do đó ở mức ý nghĩa 5%, bác bỏ giả thiết ‫ܪ‬଴ cho rằng tỉ lệ khách hàng nam ưa thích 2 loại dầu gội này là bằng nhau.

Chủ Đề