Các lỗi trong import dữ liệu trong spss năm 2024
Dạo này ad nhận được nhiều mail của các bạn hỏi về cách xử lý một lỗi rất khó chịu, đó là lỗi “Text value unmappable in the current server locale”, khi gặp lỗi này thì không thể mở tập tin SPSS được. Nên nay ad trình bày kinh nghiệm xử lý để các bạn có thể tự xử lý luôn nhé, màn hình lỗi như sau: -Hiện tượng: khi mở một file SPSS, hoặc đưa file excel vào chương trình SPSS sẽ mở không được và báo lỗi như hình trên. -Nguyên nhân: do tên thư mục chứa file SPSS có dấu tiếng Việt, ví dụ thư mục “thư mục tiếng việt” như hình trên. Hoặc là do file SPSS hoặc excel được đặt tên bằng tiếng việt có dấu. -Giải pháp: Copy file spss thẳng ra ổ C:\, hoặc đổi tên các thư mục chứa file, sao cho không còn tiếng việt có dấu. Nếu tên file có dấu thì đổi tên file luôn nhé. Việc missing dữ liệu rất nhiều nguyên nhân, và trong quy trình thực hiện 1 nghiên cứu, lỗi này sinh ra ngay trong khâu đầu tiên là thiết kế bảng hỏi. Câu hỏi không rõ ràng, đáp án đưa ra lệch với đáp án thực tế, bước nhảy chưa chuẩn. Tiếp đến là kỹ năng phỏng vấn của điều tra viên như thiếu thông tin, hỏi sai ý, điền sai, chọn sai đối tượng phỏng vấn... Hoặc do người trả lời không muốn trả lời, không muốn cung cấp thông tin, nhất là đối với những vấn đề tế nhị. Khâu đọc soát bảng hỏi của điều phối khảo sát chưa kỹ càng. Việc nhập liệu sai do lỗi đánh thừa chữ, sai do việc chọn đáp án của điều tra viên không rõ ràng. Tỷ lệ missing nhiều có thể khiến cho số liệu giảm đi tính thuyết phục Cho nên việc giảm đến mức tối thiểu tỷ lệ missing trong 1 bảng dữ liệu cần phải được kiểm soát ngay từ khâu lập bảng hỏi, cho đến khi xử lý số liệu. Song tỷ lệ missing có thể được hạn chế phần nào nếu mã hoá và lọc thông tin tốt. Quay lại phần mã hoá bảng hỏi ở trên. Đối với những câu có gắn giá trị ở cột Values ví dụ như câu 3, giới tính: 1/nam, 2/nữ. Người mã hoá dự đoán rằng: sẽ có những trường hợp xảy ra dẫn đến lỗi sai: như việc thay vì người nhập liệu đánh 1 hoặc 2, thì họ đánh máy 11, 22. Đó là 1 lỗi phổ biến trong nhập liệu. Chuyển sang ô Missing người mã hoá sẽ nhấp vào ô missing để đánh 2 lỗi này vào hệ thống missing. như trên.Hoặc bên cạnh đó có thể đưa ra cách phương án missing cho người nhập liệu điền vào nếu bảng hỏi không rõ ràng. Ví dụ: 0 là những người không trả lời, 8 hay 9 là người nhập liệu không chắc chắn nhập 1 nam hay 2 nữ khi điều tra viên đánh dấu bảng hỏi không rõ ràng. Nhờ đó người nhập liệu sẽ nhập những giá trị khuyết bằng những con số kể trênCác cách để làm sạch dữ liệu: Thứ nhất là dùng bảng tần số để phát hiện số liệu lạ, dùng lênh Frequency (xem bài trước). Ví dụ: tôi cố ý sửa bảng số liệu thống kê cuộc tổng điều tra Mỹ (ví dụ có sẵn trong SPSS 11.5) có hai lỗi missing. Frequency ra như sau: Statistics Respondent's Sex N Valid 1515 Missing 2 Respondent's Sex Frequency Percent Valid Percent Cumulative Percent Valid Male 636 41.9 42.0 42.0 Female 879 57.9 58.0 100.0 Total 1515 99.9 100.0 Missing 11 1 .1 22 1 .1 Total 2 .1 Total 1517 100.0 Missing nhận những giá trị lạ như 11, 22. Ta tiến hành tìm kiếm lỗi sai đó để sửa lại. Ta vào Edit, chọn find, hoặc bấm tổ hợp phím Ctrl F. Sẽ ra giao diện như sau: Tìm dữ liệu lỗi bằng Find NextTa đánh những giá trị lạ (ví dụ 11) vào và bấm Find next. Hệ thống sẽ bôi đen một trong số những ô sai nhờ đó ta dễ dàng sửa lại. Tiếp tục Ctrl F để tìm tiếp, khi không tìm thấy ô có số 11, tiếp tục tìm kiếm với số 22. Tìm kiếm những giá trị lạ khác (ngoài 2 đáp án đã mã hoá) nếu có. Tiếp theo là dùng Sort Case để tìm những lỗi đơn giản nằm ngoài đáp án. Ví dụ với câu đánh giá mức độ hạnh phúc của người trả lời (trích tổng điều tra Mỹ SPSS11.5) Tìm dữ liệu lỗi bằng Sort CasesCâu hỏi có 3 lựa chọn 1/rất hạnh phúc, 2/khá hạnh phúc, 3/không quá hạnh phúc. Như vậy ta sẽ dụng Sort Case để tìm ra những câu nhận những giá trị lớn hơn 3 và nhỏ hơn 1. Thì đó là những giá trị sai. Vào Data. Chọn Sort Cases Giao diện hiện ra như sau: Ta đưa câu cần sắp xếp vào ô sort by. Ascending là sắp xếp giá trị tăng dần. Ta có thể dễ dàng nhận thấy những ô nào nhận giá trị = 0. Và Descending là sắp xếp giá trị giảm dần. Ta biết những giá trị nào lớn hơn 3 Chọn Sort Cases với Descending ta thấy có 13 phiếu hỏi bị missing, nhận giá trị là 9. Tương tự với những câu khác Có thể tìm ra lỗi sai còn việc sửa lỗi sai như thế nào hay xoá những phiếu có lỗi sai đi là tuỳ thuộc vào người xử lý. Tìm lỗi sai logic bằng bảng kết hợp đa biến: Tìm lỗi sai bằng bảng kết hợp đa biếnVí dụ ta chay lệnh Table General để kiểm tra: Ví dụ chạy thử độ tuổi với số con cái. Tất nhiên, tôi cố tình sửa sai một số lỗi. Đưa tuổi vào rown, số con vào columm. Bấm OK ta được bảng sau: Number of Children (số con) 0 1 2 3 4 5 6 7 Eight or More Age of Respondent (Độ tuổi) 15 1 18 2 1 19 6 1 2 20 11 7 21 33 5 22 26 3 4 1 1 23 18 7 2 24 12 6 4 2 25 20 4 1 3 Trên hình cho thấy có một người 15 tuổi, nhưng có 3 con. Điều này giả sử là vô lý. Hay có những tình huống vô lý như 1 người 15 tuổi mà học vấn tiến sỹ. Sau đó ta sẽ dùng lệnh select cases để xem lỗi sai này Vào Data, chọn Select Case, chon If. Giao diện hiện ra, đưa tuổi=15&số con =3. Continue => OK. Chương trình sẽ gạch chéo hết những ô không phải đúng với điều kiện trên. Đồng thời sẽ xuất hiện 1 câu khác ở phía cuối (kéo thanh ngang chạy về cuối) có tên là filter_$. Những câu không thoả mãn với điều kiện (tuổi=15 và con=3) và bị gạch chéo sẽ nhận giá trị 0. Còn những câu thoả mãn với điều kiện nhận giá trị 1. Như vậy những câu nhận giá trị 1 là câu có lỗi. Để tìm ra những câu nhận giá trị trong hơn một ngàn bảng hỏi rất dễ. Chỉ cần Ctrl F Nhập giá trị là 1 rồi Find next, ta sẽ thấy những câu sai bị bôi đen như sau: Bạn có thể sửa chúng (bằng cách nào đó) thì có thể dễ dàng. Còn tôi sẽ bỏ những câu lỗi (những câu nhận giá trị 1) đi. Lúc này tôi sẽ thực hiện thêm 1 lệnh Select Cases nữa. Lọc lỗi sai bằng Select CasesTrong lệnh này, tôi sẽ cho câu mới (biến mới được tạo ra) là Filter_$=0. Tức là chỉ nhận câu không đủ điều kiện (tuổi=15, số con=3). Continue => OK |