Association rule là gì
LUẬT KẾT HỢP (Association Rules) Bài toán phân tích giỏ hàng Phân tích việc mua hàng của khách hàng bằng cách tìm ra những “mối kết hợp” giữa những mặt hàng mà khách đã mua. Khai phá luật kết hợp: Định dạng thể hiện đặc trưng cho các luật kết hợp:
Các biểu diễn khác:
Tiền đề, vế trái luật 2.1 Thuật toán Apriori Nhận xét 1: Cách tiếp cận của thuật toán Apriori dựa trên nhận xét sau: Nếu bất kỳ tập k-đvdl nào là không phổ biến thì bất kỳ tập (k+1)-đvdl chứa chúng cũng sẽ không phổ biến, và ngược lại: Nếu bất kỳ tập k-đvdl nào là phổ biến thì mọi tập con của nó là phổ biến. Ký hiệu: Cho: (1) CSDL các giao tác, (2) mỗi giao tác là một danh sách mặt hàng được mua (trong một lượt mua của khách hàng)Frequent item sets Tìm: tất cả luật có support >= minsupport Tạo ứng viên Apriori Nguyên
tắc Apriori: Ví dụ về Apriori Tập phổ biến tối đại ( maximal frequent sets). Định nghĩa: M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến S khác M mà M ⊂ S Thuật toán Apriori đã đủ nhanh? Phần cốt lõi của thuật toán Apriori: FP tree
Tình trạng nghẽn cổ chai của thuật toán Apriori: việc tạo ứng viên
Thực tế: Đối với tiếp cận Apriori căn bản thì số lượng thuộc tính trên dòng thường khó hơn nhiều so với số lượng dòng giao tác.
Lưu ý:
Cải thiện hiệu quả của TT Apriori
Thuật toán FP-Tree Ý tưởng: Dùng đệ quy để gia tăng độ dài của mẫu phổ biến dựa trên cây FP và các mẫu được phân hoạch
Các bước xây dựng cây FP-Tree Bước 1: Duyệt CSDL, xác định tập F các item phổ biến một phần tử, sau đó loại bỏ các Item không thoả ngưỡng minsup. Sắp xếp các item trong tập F theo thứ tự giảm dần của độ phổ biến, ta được tập kết quả là L.
Những giao tác có bao gồm item E Tạo luật kết hợp Ghi nhớ 1:
Thực tế, việc tạo các tập phổ biến và tạo các luật kết hợp thật sử chiếm thời gian bao lâu?
Chọn những luật tốt nhất? Tập kết quả thường rất lớn, cần chọn ra những luật tốt nhất dựa trên: Các độ đo khách quan:
Các độ đo chủ quan (Silberschatz & Tuzhilin, KDD95) Một luật (mẫu) là tốt nếu
Những kết quả này sẽ được dùng trong các quá trình khám phá tri thức (KDD) Luật Boolean và luật định lượng Các thuộc tính định lượng: ví dụ: tuổi, thu nhập, chiều cao, cân nặng Vấn đề: có quá nhiều giá trị khác nhau cho các thuộc tính định lượng Các luật một chiều và nhiều chiều |