Top 5 ưu nhược điểm của thuật toán cây quyết định năm 2022
Decision Tree – Thuật toán cây quyết định là gì ? Đây là một thuật thông thông dụng chỉ sau Láng giềng gần nhất KNN thôi, được ứng dụng rộng rãi trong phân tích dữ liệu thống kê, hay chạy mô hình định lượng … đặc biệt là trong các mô hình AI- trí tuệ nhân tạo. Show
Cây quyết định là gì?Cây quyết định là một thuật toán học tập có giám sát không tham số, được sử dụng cho cả nhiệm vụ phân loại và hồi quy. Nó có cấu trúc dạng cây, phân cấp, bao gồm nút gốc ( root node) , các nhánh , các nút bên trong ( internal node) và các nút lá (leaf nodes). Cây quyết định bắt đầu bằng một nút gốc, không có bất kỳ nhánh nào đến. Các nhánh đi từ nút gốc sau đó đưa vào các nút bên trong, còn được gọi là nút quyết định. Dựa trên các đặc điểm sẵn có, cả hai loại nút đều tiến hành đánh giá để tạo thành các tập con đồng nhất, được ký hiệu bằng các nút lá, hoặc các nút đầu cuối. Các nút lá đại diện cho tất cả các kết quả có thể có trong tập dữ liệu. Cơ chế hoạt động của Decision TreeCây quyết định sử dụng chiến lược phân chia và chinh phục bằng cách thực hiện một tìm kiếm
tham lam để xác định các điểm phân tách tối ưu trong một cây. Quá trình tách này sau đó được lặp lại theo cách thức đệ quy từ trên xuống cho đến khi tất cả hoặc phần lớn các bản ghi đã được phân loại theo các nhãn lớp cụ thể. Đặc điểm của cây quyết địnhCây quyết định là một kỹ thuật học thuật có giám sát có thể được sử dụng cho cả bài toán phân loại và bài toán hồi quy, nhưng chủ yếu nó được ưu tiên hơn để giải các bài toán phân loại. Nó là một bộ phân loại có cấu trúc cây,
trong đó các nút bên trong đại diện cho các tính năng của tập dữ liệu, các nhánh đại diện cho các quy tắc quyết định và mỗi nút lá đại diện cho kết quả. Tại sao sử dụng cây quyết định?Có nhiều thuật toán khác nhau trong Học máy, vì vậy việc chọn thuật toán tốt nhất cho tập dữ liệu và vấn đề đã cho là điểm chính cần nhớ trong khi tạo mô hình học máy. Dưới đây là hai lý do để sử dụng cây Quyết định: Cây Quyết định thường bắt chước khả năng tư duy của con người trong khi đưa ra quyết định, vì vậy nó rất dễ hiểu. Thuật toán cây quyết định Decision Tree Các thuật ngữ cây quyết địnhNút gốc (Root node)Nút gốc là nơi bắt đầu cây quyết định. Nó đại diện cho toàn bộ tập dữ liệu, được chia thành hai hoặc nhiều tập đồng nhất. Nút lá (Leaf node)Các nút lá là nút đầu ra cuối cùng và cây không thể được phân tách thêm sau khi nhận được nút lá. Tách ( Splitting)Tách là quá trình phân chia nút quyết định / nút gốc thành các nút con theo các điều kiện cho trước. Cành / Cây phụ ( Branch/Sub Tree)Cây được hình thành bằng cách tách cây. Tỉa cành ( Pruning)Tỉa cành là quá trình loại bỏ những cành không mong muốn khỏi cây. Nút cha / nút con ( Parent/Child node)Nút gốc của cây được gọi là nút cha, và các nút khác được gọi là nút con. Thuật toán Cây quyết định hoạt động như thế nào?Trong cây quyết định, để dự đoán lớp của tập dữ liệu đã cho, thuật toán bắt đầu từ nút gốc của cây. Thuật toán này so sánh các giá trị của thuộc tính gốc với thuộc tính bản ghi (tập dữ liệu thực) và dựa trên sự so sánh, đi theo nhánh và nhảy đến nút tiếp theo. Đối với nút tiếp theo, thuật toán lại so sánh giá trị thuộc tính với các nút con khác và di chuyển xa hơn. Nó tiếp tục quá trình cho đến khi nó đạt đến nút lá của cây. Quy trình hoàn chỉnh có thể được hiểu rõ hơn bằng cách sử dụng thuật toán dưới đây: Bước 1: Bắt đầu cây với nút gốc (Đặt tên: S), nút này chứa tập dữ liệu hoàn chỉnh. Các biện pháp lựa chọn thuộc tínhTrong khi thực hiện cây Quyết định, vấn đề chính nảy sinh là làm thế nào để chọn thuộc tính tốt nhất cho nút gốc và cho các nút con. Vì vậy, để giải quyết những vấn đề như vậy có một kỹ thuật được gọi là thước đo lựa chọn thuộc tính hoặc ASM. Bằng phép đo này, chúng ta có thể dễ dàng chọn thuộc tính tốt nhất cho các nút của cây. Có hai kỹ thuật phổ biến cho ASM, đó là: Thông tin thu được 1. Tăng thông tin:Mức tăng thông tin là phép đo những thay đổi trong entropy sau khi phân đoạn tập dữ liệu dựa trên một thuộc tính. 2. Chỉ số Gini:Chỉ số Gini là thước đo tạp chất hoặc độ tinh khiết được sử dụng trong khi tạo cây quyết định trong thuật toán CART (Cây phân loại và hồi quy). Mở rộng thuật toán Decision TreeThuật toán của Hunt, được phát triển vào những năm 1960 để mô hình hóa việc học tập của con người trong Tâm lý học, tạo thành nền tảng của nhiều thuật toán cây quyết định phổ biến, chẳng hạn như sau: – ID3: Ross Quinlan được ghi nhận trong quá trình phát triển ID3, viết tắt của “Lặp lại Dichotomiser 3.” Thuật toán này tận dụng entropy và thu thập thông tin làm số liệu để đánh giá sự phân chia ứng viên. Bạn có thể tìm thấy một số nghiên cứu của Quinlan về thuật toán này từ năm 1986. – C4.5: Thuật toán này được coi là sự lặp lại sau này của ID3, thuật toán này cũng được phát triển bởi Quinlan. Nó có thể sử dụng tỷ lệ thu được hoặc thu được thông tin để đánh giá các điểm phân tách trong cây quyết định. – CART: Thuật ngữ, CART, là từ viết tắt của “cây phân loại và hồi quy” và được giới thiệu bởi Leo Breiman. Thuật toán này thường sử dụng tạp chất Gini để xác định thuộc tính lý tưởng để phân tách. Tạp chất Gini đo tần suất một thuộc tính được chọn ngẫu nhiên bị phân loại sai. Khi đánh giá bằng cách sử dụng tạp chất Gini, giá trị thấp hơn là lý tưởng hơn. Đánh giá DTTrong khi cây quyết định có thể được sử dụng trong nhiều trường hợp sử dụng khác nhau, các thuật toán khác thường hoạt động tốt hơn các thuật toán cây quyết định. Điều đó nói rằng, cây quyết định đặc biệt hữu ích cho các nhiệm vụ khai thác dữ liệu và khám phá kiến thức. Hãy cùng khám phá những lợi ích và thách thức chính của việc sử dụng cây quyết định dưới đây: Thuận lợiDễ hiểu: Logic Boolean và các biểu diễn trực quan của cây quyết định giúp chúng dễ hiểu và
dễ hiểu hơn. Bản chất phân cấp của cây quyết định cũng giúp bạn dễ dàng thấy thuộc tính nào là quan trọng nhất, điều này không phải lúc nào cũng rõ ràng với các thuật toán khác, như mạng nơ-ron . Nhược điểmDễ bị overfitting: Cây quyết định phức tạp có xu hướng quá mức và không tổng quát hóa tốt cho dữ liệu mới. Kịch bản này có thể tránh được thông qua quá trình cắt tỉa trước hoặc sau cắt tỉa. Việc cắt tỉa trước sẽ tạm dừng sự phát triển của cây khi không có đủ dữ liệu trong khi sau
khi cắt tỉa sẽ loại bỏ các cây phụ có dữ liệu không đầy đủ sau khi xây dựng cây. |