Các lỗi trong import dữ liệu trong spss năm 2024

Dạo này ad nhận được nhiều mail của các bạn hỏi về cách xử lý một lỗi rất khó chịu, đó là lỗi “Text value unmappable in the current server locale”, khi gặp lỗi này thì không thể mở tập tin SPSS được.

Nên nay ad trình bày kinh nghiệm xử lý để các bạn có thể tự xử lý luôn nhé, màn hình lỗi như sau:

Các lỗi trong import dữ liệu trong spss năm 2024

-Hiện tượng: khi mở một file SPSS, hoặc đưa file excel vào chương trình SPSS sẽ mở không được và báo lỗi như hình trên.

-Nguyên nhân: do tên thư mục chứa file SPSS có dấu tiếng Việt, ví dụ thư mục “thư mục tiếng việt” như hình trên. Hoặc là do file SPSS hoặc excel được đặt tên bằng tiếng việt có dấu.

-Giải pháp: Copy file spss thẳng ra ổ C:\, hoặc đổi tên các thư mục chứa file, sao cho không còn tiếng việt có dấu. Nếu tên file có dấu thì đổi tên file luôn nhé.

Việc missing dữ liệu rất nhiều nguyên nhân, và trong quy trình thực hiện 1 nghiên cứu, lỗi này sinh ra ngay trong khâu đầu tiên là thiết kế bảng hỏi. Câu hỏi không rõ ràng, đáp án đưa ra lệch với đáp án thực tế, bước nhảy chưa chuẩn. Tiếp đến là kỹ năng phỏng vấn của điều tra viên như thiếu thông tin, hỏi sai ý, điền sai, chọn sai đối tượng phỏng vấn... Hoặc do người trả lời không muốn trả lời, không muốn cung cấp thông tin, nhất là đối với những vấn đề tế nhị. Khâu đọc soát bảng hỏi của điều phối khảo sát chưa kỹ càng. Việc nhập liệu sai do lỗi đánh thừa chữ, sai do việc chọn đáp án của điều tra viên không rõ ràng. Tỷ lệ missing nhiều có thể khiến cho số liệu giảm đi tính thuyết phục

Cho nên việc giảm đến mức tối thiểu tỷ lệ missing trong 1 bảng dữ liệu cần phải được kiểm soát ngay từ khâu lập bảng hỏi, cho đến khi xử lý số liệu.

Song tỷ lệ missing có thể được hạn chế phần nào nếu mã hoá và lọc thông tin tốt.

Quay lại phần mã hoá bảng hỏi ở trên.

Các lỗi trong import dữ liệu trong spss năm 2024

Các lỗi trong import dữ liệu trong spss năm 2024
Đối với những câu có gắn giá trị ở cột Values ví dụ như câu 3, giới tính: 1/nam, 2/nữ. Người mã hoá dự đoán rằng: sẽ có những trường hợp xảy ra dẫn đến lỗi sai: như việc thay vì người nhập liệu đánh 1 hoặc 2, thì họ đánh máy 11, 22. Đó là 1 lỗi phổ biến trong nhập liệu. Chuyển sang ô Missing người mã hoá sẽ nhấp vào ô missing để đánh 2 lỗi này vào hệ thống missing. như trên.

Các lỗi trong import dữ liệu trong spss năm 2024
Hoặc bên cạnh đó có thể đưa ra cách phương án missing cho người nhập liệu điền vào nếu bảng hỏi không rõ ràng. Ví dụ: 0 là những người không trả lời, 8 hay 9 là người nhập liệu không chắc chắn nhập 1 nam hay 2 nữ khi điều tra viên đánh dấu bảng hỏi không rõ ràng. Nhờ đó người nhập liệu sẽ nhập những giá trị khuyết bằng những con số kể trên

Các cách để làm sạch dữ liệu:

Thứ nhất là dùng bảng tần số để phát hiện số liệu lạ, dùng lênh Frequency (xem bài trước). Ví dụ: tôi cố ý sửa bảng số liệu thống kê cuộc tổng điều tra Mỹ (ví dụ có sẵn trong SPSS 11.5) có hai lỗi missing. Frequency ra như sau:

Statistics

Respondent's Sex

N

Valid

1515

Missing

2

Respondent's Sex

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

Male

636

41.9

42.0

42.0

Female

879

57.9

58.0

100.0

Total

1515

99.9

100.0

Missing

11

1

.1

22

1

.1

Total

2

.1

Total

1517

100.0

Các lỗi trong import dữ liệu trong spss năm 2024

Missing nhận những giá trị lạ như 11, 22. Ta tiến hành tìm kiếm lỗi sai đó để sửa lại.

Ta vào Edit, chọn find, hoặc bấm tổ hợp phím Ctrl F. Sẽ ra giao diện như sau:

Các lỗi trong import dữ liệu trong spss năm 2024
Tìm dữ liệu lỗi bằng Find Next

Ta đánh những giá trị lạ (ví dụ 11) vào và bấm Find next. Hệ thống sẽ bôi đen một trong số những ô sai nhờ đó ta dễ dàng sửa lại. Tiếp tục Ctrl F để tìm tiếp, khi không tìm thấy ô có số 11, tiếp tục tìm kiếm với số 22. Tìm kiếm những giá trị lạ khác (ngoài 2 đáp án đã mã hoá) nếu có.

Tiếp theo là dùng Sort Case để tìm những lỗi đơn giản nằm ngoài đáp án.

Ví dụ với câu đánh giá mức độ hạnh phúc của người trả lời (trích tổng điều tra Mỹ SPSS11.5)

Các lỗi trong import dữ liệu trong spss năm 2024
Tìm dữ liệu lỗi bằng Sort Cases

Câu hỏi có 3 lựa chọn 1/rất hạnh phúc, 2/khá hạnh phúc, 3/không quá hạnh phúc. Như vậy ta sẽ dụng Sort Case để tìm ra những câu nhận những giá trị lớn hơn 3 và nhỏ hơn 1. Thì đó là những giá trị sai. Vào Data. Chọn Sort Cases

Giao diện hiện ra như sau:

Các lỗi trong import dữ liệu trong spss năm 2024

Ta đưa câu cần sắp xếp vào ô sort by. Ascending là sắp xếp giá trị tăng dần. Ta có thể dễ dàng nhận thấy những ô nào nhận giá trị = 0. Và Descending là sắp xếp giá trị giảm dần. Ta biết những giá trị nào lớn hơn 3

Các lỗi trong import dữ liệu trong spss năm 2024

Chọn Sort Cases với Descending ta thấy có 13 phiếu hỏi bị missing, nhận giá trị là 9. Tương tự với những câu khác Có thể tìm ra lỗi sai còn việc sửa lỗi sai như thế nào hay xoá những phiếu có lỗi sai đi là tuỳ thuộc vào người xử lý.

Tìm lỗi sai logic bằng bảng kết hợp đa biến:

Các lỗi trong import dữ liệu trong spss năm 2024
Tìm lỗi sai bằng bảng kết hợp đa biến

Ví dụ ta chay lệnh Table General để kiểm tra: Ví dụ chạy thử độ tuổi với số con cái. Tất nhiên, tôi cố tình sửa sai một số lỗi.

Các lỗi trong import dữ liệu trong spss năm 2024

Đưa tuổi vào rown, số con vào columm. Bấm OK ta được bảng sau:

Number of Children (số con)

0

1

2

3

4

5

6

7

Eight or More

Age of Respondent

(Độ tuổi)

15

1

18

2

1

19

6

1

2

20

11

7

21

33

5

22

26

3

4

1

1

23

18

7

2

24

12

6

4

2

25

20

4

1

3

Trên hình cho thấy có một người 15 tuổi, nhưng có 3 con. Điều này giả sử là vô lý.

Hay có những tình huống vô lý như 1 người 15 tuổi mà học vấn tiến sỹ.

Sau đó ta sẽ dùng lệnh select cases để xem lỗi sai này

Các lỗi trong import dữ liệu trong spss năm 2024

Vào Data, chọn Select Case, chon If. Giao diện hiện ra, đưa tuổi=15&số con =3. Continue => OK. Chương trình sẽ gạch chéo hết những ô không phải đúng với điều kiện trên.

Các lỗi trong import dữ liệu trong spss năm 2024

Đồng thời sẽ xuất hiện 1 câu khác ở phía cuối (kéo thanh ngang chạy về cuối) có tên là filter_$. Những câu không thoả mãn với điều kiện (tuổi=15 và con=3) và bị gạch chéo sẽ nhận giá trị 0. Còn những câu thoả mãn với điều kiện nhận giá trị 1. Như vậy những câu nhận giá trị 1 là câu có lỗi.

Để tìm ra những câu nhận giá trị trong hơn một ngàn bảng hỏi rất dễ. Chỉ cần Ctrl F

Các lỗi trong import dữ liệu trong spss năm 2024

Nhập giá trị là 1 rồi Find next, ta sẽ thấy những câu sai bị bôi đen như sau:

Các lỗi trong import dữ liệu trong spss năm 2024

Bạn có thể sửa chúng (bằng cách nào đó) thì có thể dễ dàng.

Còn tôi sẽ bỏ những câu lỗi (những câu nhận giá trị 1) đi. Lúc này tôi sẽ thực hiện thêm 1 lệnh Select Cases nữa.

Các lỗi trong import dữ liệu trong spss năm 2024
Lọc lỗi sai bằng Select Cases

Trong lệnh này, tôi sẽ cho câu mới (biến mới được tạo ra) là Filter_$=0. Tức là chỉ nhận câu không đủ điều kiện (tuổi=15, số con=3). Continue => OK