Hình ảnh phân tích đánh giá số liệu năm 2024

Phân tích dữ liệu- hay Data Analysis là quá trình làm sạch và xử lý dữ liệu thô, phân tích trích xuất thông tin theo yêu cầu, trực quan hóa dữ liệu dưới dạng hình ảnh (Dashboard) đồng thời dựa trên những số liệu đã phân tích dự báo kế hoạch tương lai.

Hiểu về Phân tích dữ liệu chỉ là bước làm quen đầu tiên, tiếp theo chúng ta sẽ tìm hiểu cách thức nó hoạt động như thế nào nhé! Quy trình Phân tích dữ liệu gồm các bước cơ bản sau:

Thu thập dữ liệu: Nhận dữ liệu thu thập từ các nguồn bao gồm các nghiên cứu, khảo sát, phỏng vấn, bảng câu hỏi, quan sát trực tiếp và các nhóm tập trung. Đảm bảo sắp xếp các dữ liệu thu thập được để phân tích. Thông thường tại các doanh nghiệp sẽ có bộ phận thu thập Data riêng hoặc thuê ngoài bên thứ 3 thực hiện công việc này.

Hình ảnh phân tích đánh giá số liệu năm 2024

Làm sạch dữ liệu- hay Xử lý dữ liệu (Công việc của bạn thường sẽ bắt đầu từ đây): Không phải tất cả dữ liệu bạn thu thập đều hữu ích, vì vậy đã đến lúc dọn dẹp dữ liệu đó. Quá trình này là nơi bạn loại bỏ các khoảng trắng, các bản ghi trùng lặp và các lỗi cơ bản. Tại bước này MS Excel chính là công cụ hữu ích nhất cho khâu làm sạch dữ liệu, đây là khâu bắt buộc trước khi gửi thông tin để phân tích.

Phân tích dữ liệu: Đây là nơi bạn sử dụng phần mềm phân tích dữ liệu và các công cụ khác để giúp bạn giải thích, hiểu dữ liệu và đi đến kết luận. Các công cụ phân tích dữ liệu thường được sử dụng bao gồm MS Excel, MS Power BI, Python, R, …

Trực quan hóa dữ liệu: Hay nói một cách dễ hiểu hơn là hiển thị thông tin mà bạn thu thập được bằng đồ thị theo cách mà mọi người có thể dễ dàng đọc và hiểu nó. Bạn có thể sử dụng biểu đồ, đồ thị, bản đồ, dấu đầu dòng hoặc một loạt các phương pháp khác. MS Power BI hiện được đánh giá là công cụ tối ưu nhất trong trực quan hóa dữ liệu. Hình ảnh hóa dữ liệu giúp bạn thu được những thông tin chi tiết có giá trị bằng cách giúp bạn so sánh các tập dữ liệu và quan sát các mối quan hệ.

Dự báo dự đoán với Azure Machine Learning: Với chương trình Data Analysis tại Trung Tâm Tin Học, chúng tôi giới thiệu với bạn thêm một bước nữa trong quy trình Phân tích dữ liệu, đó chính là Dự báo dự đoán. Sử dụng thư viện Azure ML kết hợp với dữ liệu đã được xử lý phân tích bằng MS Excel hay Power BI, giờ đây việc đưa ra quyết định đã dễ dàng hơn bao giờ, làm chủ dữ liệu chính là làm chủ thành công.

Toàn bộ quy trình triển khai Data Analysis từ Làm sạch- Phân tích- Trực quan hóa- Dự báo dự đoán sẽ được hướng dẫn chi tiết cụ thể với các bài tập thực tế tại khóa học Data Analysis with Excel và Data Analysis with Power BI, không đòi hỏi kiến thức Lập trình hay phải biết code chúng tôi giúp bạn vận dụng mọi công cụ hỗ trợ để cho ra kết quả dự báo tốt nhất.

Công cụ sử dụng: MS Excel/ Power BI và Azure ML đến từ Microsoft.

Bạn còn chần chứ gì mà không trang bị ngay kỹ năng mới và tham gia vào lĩnh vực phân tích số liệu nhiều tiềm năng này, liên hệ với chúng tôi để được hỗ trợ tốt nhất về khóa học nhé!

Phân tích nhân tố khám phá EFA là một bước rất quan trọng khi thực hiện phân tích dữ liệu định lượng bằng SPSS trong một bài luận văn, bài nghiên cứu khoa học. Khi kiểm định một lý thuyết khoa học, chúng ta cần đánh giá độ tin cậy của thang đo (phân tích Cronbach Alpha) và giá trị của thang đo (EFA). Ở phần trước, chúng ta đã tìm hiểu về độ tin cậy thang đo, vấn đề tiếp theo là thang đo phải được đánh giá giá trị của nó.

Hình ảnh phân tích đánh giá số liệu năm 2024

Hai giá trị quan trọng được xem xét trong phần này là giá trị hội tụ và giá trị phân biệt:

  • Giá trị hội tụ: Các biến quan sát cùng tính chất hội tụ về cùng một nhân tố, khi biểu diễn trong ma trận xoay, các biến này sẽ nằm chung một cột với nhau.
  • Giá trị phân biệt: Các biến quan sát hội tụ về nhân tố này và phải phân biệt với các biến quan sát hội tụ ở nhân tố khác, khi biểu diễn trong ma trận xoay, từng nhóm biến sẽ tách thành từng cột riêng biệt.

1. Phân tích nhân tố khám phá EFA là gì?

- Phân tích nhân tố khám phá, gọi tắt là EFA, dùng để rút gọn một tập hợp k biến quan sát thành một tập F (với F < k) các nhân tố có ý nghĩa hơn. Trong nghiên cứu, chúng ta thường thu thập được một số lượng biến khá lớn và rất nhiều các biến quan sát trong đó có liên hệ tương quan với nhau. Thay vì đi nghiên cứu 20 đặc điểm nhỏ của một đối tượng, chúng ta có thể chỉ nghiên cứu 4 đặc điểm lớn, trong mỗi đặc điểm lớn này gồm 5 đặc điểm nhỏ có sự tương quan với nhau. Điều này giúp tiết kiệm thời gian và kinh phí nhiều hơn cho người nghiên cứu.

Hình ảnh phân tích đánh giá số liệu năm 2024
Xem thêm: Khi nào chạy chung/riêng EFA độc lập với phụ thuộc?
Hình ảnh phân tích đánh giá số liệu năm 2024
Xem thêm: Đặt tên nhân tố mới từ nhiều nhóm khác nhau trong EFA

- Với kiểm định độ tin cậy thang đo Cronbach Alpha, chúng ta đang đánh giá mối quan hệ giữa các biến trong cùng một nhóm, cùng một nhân tố, chứ không xem xét mối quan hệ giữa tất cả các biến quan sát ở các nhân tố khác. Trong khi đó, EFA xem xét mối quan hệ giữa các biến ở tất cả các nhóm (các nhân tố) khác nhau nhằm phát hiện ra những biến quan sát tải lên nhiều nhân tố hoặc các biến quan sát bị phân sai nhân tố từ ban đầu.

2. Các tiêu chí trong phân tích EFA

- Hệ số KMO (Kaiser-Meyer-Olkin) là một chỉ số dùng để xem xét sự thích hợp của phân tích nhân tố. Trị số của KMO phải đạt giá trị 0.5 trở lên (0.5 ≤ KMO ≤ 1) là điều kiện đủ để phân tích nhân tố là phù hợp. Nếu trị số này nhỏ hơn 0.5, thì phân tích nhân tố có khả năng không thích hợp với tập dữ liệu nghiên cứu.

- Kiểm định Bartlett (Bartlett’s test of sphericity) dùng để xem xét các biến quan sát trong nhân tố có tương quan với nhau hay không. Chúng ta cần lưu ý, điều kiện cần để áp dụng phân tích nhân tố là các biến quan sát phản ánh những khía cạnh khác nhau của cùng một nhân tố phải có mối tương quan với nhau. Điểm này liên quan đến giá trị hội tụ trong phân tích EFA được nhắc ở trên. Do đó, nếu kiểm định cho thấy không có ý nghĩa thống kê thì không nên áp dụng phân tích nhân tố cho các biến đang xem xét. Kiểm định Bartlett có ý nghĩa thống kê (sig Bartlett’s Test < 0.05), chứng tỏ các biến quan sát có tương quan với nhau trong nhân tố.

- Trị số Eigenvalue là một tiêu chí sử dụng phổ biến để xác định số lượng nhân tố trong phân tích EFA. Với tiêu chí này, chỉ có những nhân tố nào có Eigenvalue > 1 mới được giữ lại trong mô hình phân tích.

- Tổng phương sai trích (Total Variance Explained) ≥ 50% cho thấy mô hình EFA là phù hợp. Coi biến thiên là 100% thì trị số này thể hiện các nhân tố được trích cô đọng được bao nhiêu % và bị thất thoát bao nhiêu % của các biến quan sát.

- Hệ số tải nhân tố (Factor Loading) hay còn gọi là trọng số nhân tố, giá trị này biểu thị mối quan hệ tương quan giữa biến quan sát với nhân tố. Hệ số tải nhân tố càng cao, nghĩa là tương quan giữa biến quan sát đó với nhân tố càng lớn và ngược lại. Theo Hair và cộng sự (2010), Multivariate Data Analysis hệ số tải từ 0.5 là biến quan sát đạt chất lượng tốt, tối thiểu nên là 0.3.

• Factor Loading ở mức ± 0.3: Điều kiện tối thiểu để biến quan sát được giữ lại.

• Factor Loading ở mức ± 0.5: Biến quan sát có ý nghĩa thống kê tốt.

• Factor Loading ở mức ± 0.7: Biến quan sát có ý nghĩa thống kê rất tốt.

Hair và cộng sự cũng cho rằng, giá trị tiêu chuẩn của hệ số tải Factor Loading nên được xem xét cùng kích thước mẫu. Với từng khoảng kích thước mẫu khác nhau, mức trọng số nhân tố để biến quan sát có ý nghĩa thống kê là hoàn toàn khác nhau. Cụ thể, chúng ta sẽ xem bảng dưới đây:

Hình ảnh phân tích đánh giá số liệu năm 2024

3. Cách phân tích nhân tố khám phá EFA trên SPSS

3.1 Chạy EFA cho biến độc lập

Lần lượt chạy phân tích nhân tố khám phá cho biến độc lập và biến phụ thuộc. Lưu ý, các biến quan sát bị loại ở bước Cronbach Alpha trước đó sẽ không được đưa vào để kiểm định EFA.

Hình ảnh phân tích đánh giá số liệu năm 2024
Xem thêm: Chạy EFA cho mô hình có biến trung gian, biến điều tiết?

Để thực hiện phân tích nhân tố khám phá EFA trong SPSS 20, chúng ta vào Analyze > Dimension Reduction > Factor…

Hình ảnh phân tích đánh giá số liệu năm 2024

Đưa biến quan sát của các biến độc lập cần thực hiện phân tích EFA vào mục Variables, nếu có biến quan sát nào bị loại ở bước trước đó, chúng ta sẽ không đưa vào phân tích EFA. Chú ý 4 tùy chọn được đánh số ở ảnh bên dưới.

Hình ảnh phân tích đánh giá số liệu năm 2024

- Descriptives: Tích vào mục KMO and Barlett’s test of sphericity để xuất bảng giá trị KMO và giá trị sig của kiểm định Barlett. Nhấp Continue để quay lại cửa sổ ban đầu.

Hình ảnh phân tích đánh giá số liệu năm 2024

- Extraction: Ở đây, chúng ta sẽ sử dụng phép trích PCA (Principal Components Analysis). Với SPSS 20 và các phiên bản 21, 22, 23, 24, PCA sẽ được viết gọn lại là Principal Components như hình ảnh bên dưới, đây cũng là tùy chọn mặc định của SPSS. Bên cạnh PCA, chúng ta cũng thường sử dụng PAF, cách dùng hai phép quay phổ biến này, các bạn có thể xem tại bài viết Phép trích Principal Components Analysis (PCA) và Principal Axis Factoring (PAF).

Hình ảnh phân tích đánh giá số liệu năm 2024

Khi các bạn nhấp chuột vào nút mũi tên hướng xuống sẽ có nhiều tùy chọn phép trích khác nhau. Số lượng nhân tố được trích ra ở ma trận xoay phụ thuộc khá nhiều vào việc lựa chọn phép trích, tuy nhiên, tài liệu này sẽ chỉ tập trung vào phần PCA.

- Rotation: Ở đây có các phép quay, thường chúng ta hay sử dụng Varimax và Promax. Riêng với dạng đề tài đã xác định được biến độc lập và biến phụ thuộc, chúng ta sử dụng phép quay Varimax. Bạn có thể tìm hiểu sự khác nhau cũng như khi nào dùng phép xoay nào tại bài viết Phép quay vuông góc Varimax và phép quay không vuông góc Promax. Nhấp Continue để quay lại cửa sổ ban đầu.

Hình ảnh phân tích đánh giá số liệu năm 2024

- Options: Tích vào Sorted by size để ma trận xoay sắp xếp thành từng cột dạng bậc thang để dễ đọc kết quả hơn, chúng ta có thể tích hoặc không tích, việc này không ảnh hưởng đến kết quả. Cần nhớ rằng, thứ tự các nhân tố trong kết quả ma trận xoay không phản ánh mức độ quan trọng của nhân tố đó. Với mục Suppress small coefficients, nếu không tích chọn, ma trận xoay sẽ hiển thị toàn bộ hệ số tải của mỗi biến quan sát ở từng nhân tố.

Hình ảnh phân tích đánh giá số liệu năm 2024

Trường hợp chỉ muốn ma trận xoay hiện lên những ô có hệ số tải từ 0.3, 0.4 hay 0.5 … trở lên, chúng ta sẽ tích vào Suppress small coefficients. Lúc này hàng Absolute value below sẽ sáng lên và cho phép nhập vào ngưỡng hệ số tải mà nếu hệ số tải dưới ngưỡng đó sẽ không hiển thị trong bảng ma trận xoay. Trong ví dụ thực hành này, để tiện cho việc theo dõi kết quả, tác giả muốn ma trận xoay chỉ hiển thị các ô có hệ số tải từ 0.3 trở lên nên sẽ nhập vào 0.3. Sau đó nhấp vào Continue để đóng cửa sổ.

Hình ảnh phân tích đánh giá số liệu năm 2024

Tại cửa sổ tiếp theo, chọn OK để xuất kết quả ra output.

Hình ảnh phân tích đánh giá số liệu năm 2024

Có khá nhiều bảng ở output, tất cả các bảng này đều đóng góp vào việc đánh giá kết quả phân tích EFA là tốt hay tệ. Tuy nhiên, ở đây tác giả tập trung vào ba bảng kết quả chính: KMO and Barlett’s Test, Total Variance Explained và Rotated Component Matrix, bởi sử dụng ba bảng này chúng ta đã có thể đánh giá được kết quả phân tích EFA phù hợp hay không phù hợp.

Hình ảnh phân tích đánh giá số liệu năm 2024

Hình ảnh phân tích đánh giá số liệu năm 2024

Kết quả lần EFA đầu tiên: KMO = 0.887 > 0.5, sig Bartlett’s Test = 0.000 < 0.05, như vậy phân tích nhân tố khám phá EFA là phù hợp. Có 6 nhân tố được trích với tiêu chí eigenvalue lớn hơn 1 với tổng phương sai tích lũy là 63.109%. Tác giả mong muốn chọn ra các biến quan sát chất lượng nên sẽ sử dụng ngưỡng hệ số tải là 0.5 thay vì chọn hệ số tải tương ứng theo cỡ mẫu. So sánh ngưỡng này với kết quả ở ma trận xoay, có hai biến xấu là DN4 và LD5 cần xem xét loại bỏ:

  • Biến DN4 tải lên ở cả hai nhân tố là Component 4 và Component 6 với hệ số tải lần lượt là 0.612 và 0.530, mức chênh lệch hệ số tải bằng 0.612 – 0.530 = 0.082 < 0.2.
  • Biến LD5 có hệ số tải ở tất cả các nhân tố đều nhỏ 0.5.

Tác giả sử dụng phương thức loại một lượt các biến xấu trong một lần phân tích EFA. Từ 28 biến quan sát ở lần phân tích EFA thứ nhất, loại bỏ DN4 và LD5 và đưa 26 biến quan sát còn lại vào phân tích EFA lần thứ hai.

Hình ảnh phân tích đánh giá số liệu năm 2024

Hệ số KMO = 0.879 > 0.5, sig Barlett’s Test = 0.000 < 0.05, như vậy phân tích nhân tố là phù hợp.

Hình ảnh phân tích đánh giá số liệu năm 2024

Có 6 nhân tố được trích dựa vào tiêu chí eigenvalue lớn hơn 1, như vậy 6 nhân tố này tóm tắt thông tin của 26 biến quan sát đưa vào EFA một cách tốt nhất. Tổng phương sai mà 6 nhân tố này trích được là 63.357% \> 50%, như vậy, 6 nhân tố được trích giải thích được 63.357% biến thiên dữ liệu của 26 biến quan sát tham gia vào EFA.

Hình ảnh phân tích đánh giá số liệu năm 2024

Kết quả ma trận xoay cho thấy, 26 biến quan sát được phân thành 6 nhân tố, tất cả các biến quan sát đều có hệ số tải nhân tố Factor Loading lớn hơn 0.5 và không còn các biến xấu.

Như vậy, phân tích nhân tố khám phá EFA cho các biến độc lập được thực hiện hai lần. Lần thứ nhất, 28 biến quan sát được đưa vào phân tích, có 2 biến quan sát không đạt điều kiện là DN4 và LD5 được loại bỏ để thực hiện phân tích lại. Lần phân tích thứ hai (lần cuối cùng), 26 biến quan sát hội tụ và phân biệt thành 6 nhân tố.

3.2 Chạy EFA cho biến phụ thuộc

Thực hiện tương tự các bước như cách làm với biến độc lập. Thay vì đưa biến quan sát của các biến độc lập vào mục Variables, chúng ta sẽ đưa các biến quan sát của biến phụ thuộc vào. Cụ thể trong ví dụ này, biến phụ thuộc Sự hài lòng gồm 3 biến quan sát là HL1, HL2, HL3.

Kết quả output, chúng ta cũng sẽ có các bảng KMO and Barlett’s Test, Total Variance Explained, Rotated Component Matrix. Bảng KMO and Barlett’s Test giống hoàn toàn như biến độc lập, cách đọc kết quả cũng vậy.

Hình ảnh phân tích đánh giá số liệu năm 2024

Bảng Total Variance Explained khi chỉ có một nhân tố được trích sẽ hiển thị như bên dưới (không có cột Rotation Sums of Squared Loadings). Trường hợp nếu có từ hai nhân tố được trích, sẽ xuất hiện thêm cột Rotation Sums of Squared Loadings.

Hình ảnh phân tích đánh giá số liệu năm 2024

Kết quả phân tích cho thấy có một nhân tố được trích tại eigenvalue bằng 2.170 > 1. Nhân tố này giải thích được 72.339% biến thiên dữ liệu của 3 biến quan sát tham gia vào EFA.

Riêng bảng Rotated Component Matrix sẽ không xuất hiện mà thay vào đó là dòng thông báo: Only one component was extracted. The solution cannot be rotated.

Hình ảnh phân tích đánh giá số liệu năm 2024

Điều này xảy ra khi EFA chỉ trích được một nhân tố duy nhất từ các biến quan sát đưa vào. Dòng thông báo này tạm dịch là: Chỉ có một nhân tố được trích. Ma trận không thể xoay. Chúng ta luôn kỳ vọng đưa vào 1 biến phụ thuộc thì EFA cũng sẽ chỉ trích ra một nhân tố. Việc trích được chỉ một nhân tố là điều tốt, nghĩa là thang đo đó đảm bảo được tính đơn hướng, các biến quan sát của biến phụ thuộc hội tụ khá tốt. Lúc này, việc đọc kết quả sẽ dựa vào bảng ma trận chưa xoay Component Matrix thay vì bảng ma trận xoay Rotated Component Matrix.

Không phải lúc nào ma trận xoay có được từ kết quả phân tích EFA cũng tách biệt các nhóm một cách hoàn toàn, việc xuất hiện các biến xấu sẽ làm ma trận xoay bị xáo trộn so với các thang đo lý thuyết. Vậy cách nhận diện biến xấu và quy tắc loại biến xấu trong EFA như thế nào, mời các bạn xem tiếp ở bài viết