Bài tập lớn xác suất thống kê R studio

Báo cáo bài tập lớn môn xác suất thống kê GVHD Nguyễn Đình Huy

Extended embed settings

Academia.edu no longer supports Internet Explorer.

To browse Academia.edu and the wider internet faster and more securely, please take a few seconds to upgrade your browser.

Trường Đại Học Bách KhoaĐại Học Quốc Gia Thành Phố Hồ Chí Minh---oOo---MƠN HỌC XÁC SUẤT THỐNG KÊBÀI TẬP LỚN SỐ 3Lớp L13 NHĨM 13 HK211GVHD: NGUYỄN ĐÌNH HUYHỌ VÀ TÊN SINH VIÊN : BÙI XUÂN PHONGMSSV : 2014113KHOA : MƠI TRƯỜNG VÀ TÀI NGUNTP.Hồ Chí Minh, năm 20211 DANH SÁCH SINH VIÊN THỰC HIỆNSTT1Họ, tên sinh viênBùi Xuân PhongMSSV2014113Lớp/TổL13/CPhân chia công việcKý tênhoạt động 1tham dự1. Lọc dữ liệu2. Làm sạch dữ liệu3. Phụ làm word2Lê Thiên Phúc2014165L13/C1. Làm rõ dữ liệu2.t-test: Dùng mộtkiểm định phù hợpcho hai biếnpre.weight vàweight6week3.Tổng hợp làmword3Phan Võ Tiểu Phương 2014212L13/CANOVA 1 nhân tố:Chế độ ăn kiêng[Diet] nào hiệu quảnhất trong việc giảmcân4Lê Ngân Phúc Tâm2014428L13/CANOVA 1 nhân tố:Chế độ ăn kiêng[Diet] nào hiệu quảnhất trong việc giảmcân5Nguyễn Thành Tâm2014431L13/CANOVA 2 nhân tố:Chế độ ăn kiêng[Diet] và giới tính[gender] ảnh hưởngthể nào đến việc2 giảm cân [weightloss]6Phan Ngọc Thanh2014466L13/CANOVA 2 nhân tố:Chế độ ăn kiêng[Diet] và giới tính[gender] ảnh hưởngthể nào đến việcgiảm cân [weightloss]MỤC LỤCLỜI CẢM ƠN ..................................................................................................................... 1I. HOẠT ĐỘNG 1 ............................................................................................................... 21.Đề bài: ............................................................................................................................... 22. Thực hiện ......................................................................................................................... 32.1 Đọc dữ liệu: ............................................................................................................... 32.1 Làm sạch dữ liệu [Data cleaning]............................................................................ 32.2 Làm rõ dữ liệu: [Data visualization] ....................................................................... 42.3 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks 82.4 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảmcân. ................................................................................................................................... 93 2.5 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thếnào đến việc giảm cân weight.loss? ............................................................................. 17III. HOẠT ĐỘNG 2 .......................................................................................................... 201.Giới thiệu bộ dữ liệu. ..................................................................................................... 202. Đoc dữ liệu [Import data]: ........................................................................................... 213. Làm sạch dữ liệu [Data cleaning]: .............................................................................. 214. Làm rõ dữ liệu [Data visualization]: ........................................................................... 225. Xây dưng các mơ hình hồi quy tuyến tính [Fitting linear regression models]: ...... 29KẾT LUẬN ....................................................................................................................... 32Tài liệu tham khảo ............................................................................................................ 32DANH MỤC HÌNH ẢNHHình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin ................... 3Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin .................................. 3Hình 3 : code R và kết quả khi xố các quan sát chứa dữ liệu khuyết ................................ 4Hình 4 : code R và kết quả khi tạo thêm biến weight.loss ................................................... 4Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight,weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng [Diet] .................................... 5Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia ............................. 5Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng ................ 5Hình 8 : code R và kết quả khi vẽ đồ thị Histogram cho biến weight.loss ......................... 6Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.losstheo giới tính [gender] .......................................................................................................... 74 Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.losstheo các chế độ ăn kiêng [Diet] ............................................................................................ 7Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặp........................................... 8Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 1 bằng đồ thị ............................................................................. 10Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm định................................................ 11Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 2 bằng đồ thị ............................................................................. 11Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm định................................................ 12Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 3 bằng đồ thị ............................................................................. 13Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm định................................................ 13Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai 14Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố..................................... 14Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố ........... 15Hình 21 : code R và kết quả khi thực hiện ANOVA hai nhân tố ...................................... 18Hình 22 : code R và kết quả khi vẽ đồ thị phân tích sự tương tác .................................... 20Hình 23 : Biểu đồ FWI ...................................................................................................... 24Hình 24 : Phân phối FWI của nhiệt độ .............................................................................. 25Hình 25 : Phân phối FWI của độ ẩm tương đối................................................................ 26Hình 26 : Phân phối FWI của tốc độ gió ............................................................................ 27Hình 27 : Phân phối FWI của lượng mưa........................................................................... 285 LỜI CẢM ƠNXác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinh viên nóichung và sinh viên nhóm ngành Khoa học Kỹ thuật nói chung. Do đó, việc dành chomơn học này một khối lượng thời gian nhất định và thực hành là điều tất yếu để giúpsinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần thiết cho các môn họcchuyên ngành cũng như công việc sau này.Sự phát triển và ra đời của tốn tin nói chung và phần mềm R Studio, ngơn ngữ Rnói riêng đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ mơn Xác suấtthống kê. Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn.Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành mơn học Xácsuất thống kê rất quan trọng và có tính cấp thiết.Ở bài tập lớn này, nhóm thực hiện nội dung: “Phân tích phương sai Anova phân tíchdữ liệu mẫu”. Đây là một phương pháp phân tích dữ liệu mẫu khá phổ biến để sosánh, đối sánh chỉ ra những sai khác, chênh lệch về giá trị các đại lượng của cácnhóm quần thể thống kê, từ đó rút ra được mức độ tác động của các nhân tố đến quầnthể.Trong suốt q trình thực hiện bài tập, nhóm đã nhận được rất nhiều sự quan tâm,ủng hộ và giúp đỡ tận tình của thầy cơ, anh chị em và bạn bè.1 I. HOẠT ĐỘNG 11.Đề bài:Tập tin Diet.csv [cung cấp bởi Đại học Sheffield, Anh] chứa thông tin về một thử nghiệmvề hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởngthành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trongvòng 6 tuần lễ. Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúcthử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng.Các biến chính trong bộ dữ liệu: Person: số thứ tự của người tham gia thử nghiệm gender: giới tính của người tham gia [1 = nam, 0 = nữ]Age: tuổi [năm] Height: chiều cao [cm] pre.weight: cân nặng trước khi áp dụng chế độ ăn kiêng [kg] Diet: chế độ ăn kiêng [3 chế độ khác nhau] weight6weeks: cân nặng sau 6 tuần ăn kiêngCác bước thực hiện:1. Đọc dữ liệu [Import data]: "Diet.csv"2. Làm sạch dữ liệu [Data cleaning]: NA [dữ liệu khuyết]3. Làm rõ dữ liệu: [Data visualization][a] Chuyển đổi biến [nếu cần thiết].[b] Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks5. ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.6. ANOVA một nhân tố: ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính genderảnh hưởng thế nào đến việc giảm cân weightloss?2 2. Thực hiện2.1 Đọc dữ liệu:Đọc tập tin “Diet.csv”Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin2.2 Làm sạch dữ liệu [Data cleaning]Kiểm tra dữ liệu khuyết trong tập tin.Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tinNhận xét: Biến gender có chứa hai dữ liệu khuyết ở dòng 1 và dòng 2 của người tham giathứ 25 và 26. Vì chỉ có 2 người trong 78 người khơng xác định được giới tính [chiếm tỉ lệ2.56% rất nhỏ] nên ta sẽ loại bỏ 2 quan sát chứa dữ liệu khuyết này.3 Hình 3 : code R và kết quả khi xố các quan sát chứa dữ liệu khuyết2.3 Làm rõ dữ liệu: [Data visualization]Tạo biến weight.loss = pre.weight - weight6weeks thể hiện lượng cân nặng đã giảm đi khitham gia thực hiện các chế độ ăn kiêng.Hình 4 : code R và kết quả khi tạo thêm biến weight.lossThực hiện tính các giá trị thống kê mô tả cho các biến pre.weight, weight6weeks,weight.loss theo từng nhóm chế độ ăn kiêng [Diet].4 Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight,weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng [Diet]Thống kê số lượng nam và nữ tham gia.Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham giaThống kê số lượng người tham gia ở các chế độ ăn kiêng.Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng5 Vẽ đồ thị Histogram cho biến weight.loss.Hình 8 : code R và kết quả khi vẽ đồ thị Histogram cho biến weight.lossVẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo giới tính [gender].6 Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.losstheo giới tính [gender]Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo các chế độ ăn kiêng [Diet].Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biếnweight.loss theo các chế độ ăn kiêng [Diet]7 2.4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeksThực hiện kiểm định theo cặp để đánh giá xem liệu chế độ ăn kiêng [nói chung] có làmgiảm cân nặng hay khơng?Đặt giả thuyết:+ Giả thuyết H0: µ1 = µ2⇔ Cân nặng trung bình trước ăn kiêng và sau 6 tuần thực hiện chế độ ăn kiêng bằng nhau.+ Đối thuyết H1: µ1 6= µ2⇔ Cân nặng trung bình trước ăn kiêng lớn hơn sau 6 tuần thực hiện chế độ ăn kiêng.Thực hiện kiểm định:Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặpNhận xét: Từ kết quả phân tích, ta thu được:+ p-value < 2.2e-16 [bé hơn nhiều so mức ý nghĩa α = 5%] nên ta bác bỏ giả thuyết H0,chấp nhận H1. Vậy với mức ý nghĩa 5%, ta có thể kết luận cân nặng trung bình trước khiăn kiêng cao hơn sau 6 tuần thực hiện ăn kiêng, tức việc ăn kiêng đã làm giảm cân nặngtrung bình.+ mean of the differences = 3.946053, cho thấy cân nặng trung bình giảm đi sau 6 tuần thựchiện ăn kiêng dựa trên mẫu thu được là 3.946053 kg.+ Khoảng tin cậy tối thiểu cho lượng cân nặng trung bình giảm đi sau 6 tuần thực hiện ănkiêng là [3.46725]; + ∞], xét với độ tin cậy 95%.8 2.5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảmcân.Để lựa chọn một chế độ ăn kiêng hiệu quả nhất trong việc giảm cân, ta thực hiện phân tíchphương sai một nhân tố. Trong đó:+ Biến nhân tố [định tính]: biến Diet.+ Biến độc lập [định lượng]: biến weight.loss.Đặt giả thuyết:+ Giả thuyết H0: µ1 = µ2 = µ3 ⇔ Cân nặng trung bình giảm đi ở các chế độ ăn kiêng bằngnhau.+ Đối thuyết H1: 𝑢𝑖  𝑢𝑗 với [i  j] ⇔ Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bìnhgiảm đi khác nhau.Nguồn của sự biến thiênSSdfMSGiữa các nhómSSBk-1MSBTrong từng nhómSSWN-kMSWTổngSSTN-1F𝐹=𝑀𝑆𝐵𝑀𝑆𝑊Trong đó:+ Thống kê F là tỷ số giữa phương sai ước lượng giữa các nhóm với phương sai ướclượng trong từng nhóm.+ Bậc tự do:- df1 = k - 1 [k: số nhóm]- df2 = N - k [N: tổng số phần tử khảo sát ở tất cả các nhóm]Các giả định cần kiểm tra trong ANOVA một nhân tố:+ Giả định phân phối chuẩn: Cân nặng giảm đi ở các chế độ ăn kiêng tuân theo phân phốichuẩn.9 + Tính đồng nhất của các phương sai: Phương sai cân nặng giảm đi ở các chế độ ăn kiêngbằng nhau.Kiểm tra giả định phân phối chuẩn:Đối với chế độ ăn kiêng 1:Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 1 bằng đồ thịNhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đườngthẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 1 tuân theophân phối chuẩn.10 Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 1 khơng tn theo phân phối chuẩn.Vì Pr[> F] = 0.07749 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.Vậy biến weight.loss ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.Đối với chế độ ăn kiêng 2:Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 2 bằng đồ thị11 Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đườngthẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 2 tuân theophân phối chuẩn.Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn.Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 2 không tuân theo phân phối chuẩn.Vì Pr[> F] = 0.8722 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.Vậy biến weight.loss ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn.Đối với chế độ ăn kiêng 3:12 Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 3 bằng đồ thịNhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đườngthẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 3 tuân theophân phối chuẩn.Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặnggiảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn.Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 3 không tuân theo phân phối chuẩn.Vì Pr[> F] = 0.372 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.Vậy biến weight.loss ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn.13 Kiểm tra giả định tính đồng nhất của phương sai:Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương saiGiả thuyết H0: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng bằng nhau.Đối thuyết H1: Có ít nhất 2 chế độ ăn kiêng có phương sai cân nặng giảm đi khác nhau.Vì Pr[>F] = 0.6313 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.Vậy phương sai cân nặng giảm đi ở các chế độ ăn kiêng là như nhau.Thực hiện phân tích phương sai một nhân tố:Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tốNhận xét: Dựa trên kết quả ANOVA cho thấy:+ SSB = 60.5, bậc tự do k − 1 = 2[k = 3]+ SSW = 410.4, bậc tự do N − k = 76 − 3 = 73 [N là tổng số phần tử khảo sát ở tất cả cácnhóm]+ MSB = SSB/[k − 1] = 30.264+ MSW = SSW/[N − k] = 5.62214 + Giá trị thống kê kiểm định: f = MSB/MSW = 5.383+ Mức ý nghĩa quan sát: p − value = 0.0066.Dựa vào p − value = 0, 429 lớn hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyết H0.Ngồi ta, ta có thể dựa vào f = 5.383 < ngưỡng fα;k−1;N−k = f0.05;2;73 = 3.1221 nên ta cũng đưara kết luận là bác bỏ được giả thuyết H0.Vậy có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức mức độhiệu quả đối với việc giảm cân giữa các chế độ ăn kiêng là khác nhau.Ta thực hiện so sánh bội sau ANOVA một nhân tố để chọn ra chế độ ăn kiêng hiệu quảnhất trong việc giảm cân.Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tốNhận xét:15 + Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 2 và 1:Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 khác nhau.Ta nhận thấy p−adj = 0.9987711 > mức ý nghĩa α = 0.05, nên ta chưa đủ cơ sở để bác bỏgiả thuyết H0. Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 2 và chế độ ăn kiêng 1bằng nhau.+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 1:Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 khác nhau.Ta nhận thấy p − adj = 0.0188047 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0.Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 1 khác nhau.Mặt khác, ta dựa vào giá trị diff = 1.848148 > 0 nên ta có thể kết luận cân nặng giảm đitrung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 1.+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 2:Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 khác nhau.Ta nhận thấy p − adj = 0.0152020 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0.Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 2 khác nhau.Mặt khác, ta dựa vào giá trị diff = 1.880148 > 0 nên ta có thể kết luận cân nặng giảm đitrung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 2.Vậy chế độ ăn kiêng 3 là chế độ ăn kiêng có hiệu quả nhất trong việc giảm cân.16 2.6 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nàođến việc giảm cân weight.loss?Đặt giả thuyết:Đối với các nhóm [nhân tố A - cụ thể là nhân tố giới tính]:+ Giả thuyết H0a: Cân nặng trung bình giảm đi giữa nam và nữ bằng nhau.+ Đối thuyết H1a: Cân nặng trung bình giảm đi giữa nam và nữ khác nhau.Đối với các khối [nhân tố B - cụ thể là nhân tố chế độ ăn kiêng]:+ Giả thuyết H0b: Cân nặng trung bình giảm đi giữa các chế độ ăn kiêng bằng nhau.+ Đối thuyết H1b: Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau.Đối với tương tác giữa A và B [cụ thể là tương tác giữa giới tính và chế độ ăn kiêng ]:+ Giả thuyết H0ab: Khơng có sự tương tác giữa giới tính và chế độ ăn kiêng.+ Đối thuyết H1ab: Có sự tương tác giữa giới tính và chế độ ăn kiêng.Bảng ANOVA hai nhân tố [n > 1]:Nguồn của sự biến thiênSSdfMSFGiữa các nhómSSGa-1MSGGiữa các khốiSSBb-1MSBTrong từng nhómSSI[a - 1][b - 1]MSI𝑀𝑆𝐺𝑀𝑆𝐸𝑀𝑆𝐵𝐹𝑏 =𝑀𝑆𝐸𝑀𝑆𝐼𝐹𝑎𝑏 =𝑀𝑆𝐸Sai sốSSEab[n - 1]MSETổngSSTabn - 1𝐹𝑎 =Trong đó:𝐹𝑎 =𝑀𝑆𝐺𝑀𝑆𝐸17 𝐹𝑏 =𝑀𝑆𝐵𝑀𝑆𝐸𝐹𝑎𝑏 =𝑀𝑆𝐼𝑀𝑆𝐸Thực hiện phân tích phương sai hai nhân tố:Hình 21 : code R và kết quả khi thực hiện ANOVA hai nhân tốNhận xét: Dựa trên kết quả ANOVA cho thấy:+ SSG = 0.3, bậc tự do a − 1 = 1[a = 2]+ SSB = 60.4, bậc tự do b − 1 = 2[b = 3]+ SSI = 33.9, bậc tự do [a − 1][b − 1] = 1*2 = 2+ SSE = 376.3, bậc tự do ab[n − 1] = abn − ab = 76 − 6 = 70+ MSG = SSG/[a − 1] = 0.278+ MSB = SSB/[b − 1] = 30.209+ MSI = SSI/[[a − 1][b − 1]] = 16.952+ MSE = SSE/[ab[n − 1]] = 5.376+ Giá trị thống kê kiểm định:+ fa = MSG/MSE = 0.052+ fb = MSB/MSE = 5.619+ fab = MSI/MSE = 3.15318 + Mức ý nghĩa quan sát:+ p − valuea = 0.82062.+ p − valueb = 0.00546.+ p − valueab = 0.04884.Đối với các nhóm [nhân tố A - cụ thể là nhân tố giới tính]:Dựa vào p − valuea = 0.82062 lớn hơn mức ý nghĩa α = 5% nên ta chưa đủ cơ sở để bác bỏđược giả thuyết H0a.Ngồi ra, ta có thể dựa vào fa = MSG/MSE = 0.052 < ngưỡng fα;a−1;ab[n−1] = f0.05;1;70 = 3.9778nên ta cũng đưa ra kết luận là chưa đủ cơ sở để bác bỏ được giả thuyết H0a.Vậy giới tính khơng ảnh hưởng đến việc giảm cân.Đối với các khối [nhân tố B - cụ thể là nhân tố chế độ ăn kiêng]:Dựa vào p − valueb = 0.00546 bé hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyếtH0b.Ngồi ta, ta có thể dựa vào fb = MSB/MSE = 5.619 > ngưỡng fα; b−1; ab[n−1] = f0.05;2;70 = 3.1277nên ta cũng đưa ra kết luận là bác bỏ được giả thuyết H0b.Vậy chế độ ăn kiêng có ảnh hưởng đến việc giảm cân.Đối với tương tác giữa A và B [cụ thể là tương tác giữa giới tính và chế độ ăn kiêng]:Dựa vào p − valueab = 0.04884 bé hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyếtH0ab. Ngoài ta, ta có thể dựa vào fab = MSI/MSE = 3.153 < ngưỡng fα;[a−1].[b−1];ab[n−1] = f0.05;2;70= 3.1277 nên ta cũng đưa ra kết luận là bác bỏ được giả thiết H0ab.Vậy có sự tương tác giữa giới tính và chế độ ăn kiêng.Ngồi ra, ta có thể vẽ đồ thị để đánh giá sự tương tác.19 Hình 22 : code R và kết quả khi vẽ đồ thị phân tích sự tương tácNhận xét: Ta nhận thấy 2 đường thẳng trên đồ thị cắt nhau, tức có sự tương tác giữa giớitính và phương pháp ăn kiêng.III. HOẠT ĐỘNG 21. Giới thiệu bộ dữ liệu.Nội dung dữ liệu: Thống kê tập hợp dữ liệu về việc cháy rừng ở Algeria, cụ thể là vùngBejaia nằm ở phía đơng bắc của AlgeriaLý do chọn bộ dữ liệu: Đây là đề tài được quan tâm đối với khoa môi trường, đặc biệt là vềnạn cháy rừng, việc này ảnh hưởng rất lớn đến tài nguyên rừng, gây mất mát nguồn nguyênliệu tự nhiên, thiệt hại về động vật, bên cạnh đó ta cịn thấy lượng chất thải do cháy rừngxảy ra sẽ gây ô nhiễm phần nào về môi trường, ảnh hưởng đến sinh sống người dân khuvực quanh đó.Mơ tả: Khoảng thời gian thống kê từ tháng 6 năm 2012 đến tháng 9 năm 2012.Các biến chính trong bộ dữ liệu:20

Video liên quan

Chủ Đề