Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2
➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạmNội dung chi tiết: Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2
Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2
PHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2 quan trọng nhất đe đánh giá hiệu năng một phân lóp là độ chỉnh xác dự đoán (predicative accuracy) (Độ chính xác dự đoán cua mô hình phân lờp trên một tập dử liệu là u lệ cúa so đối tượng chưa dược phân lớp đúng hời mô hình). Ngoài ra còn có nhiều lieu chí khác cùng rất quan trọng như độ phức tạp th Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2uật toán, sư dụng hiệu qua lài nguyên (mây ríỉìhỵ tính linh hoạt và loàn nũng. Một sô phương pháp thường được sừ dụng cho việc lượng giá nàỵ là: ChiaNhập môn phát hiện tri thức và khai phá dữ liệu phần 2
dừ liệu thành tập dừ liệu huấn luyện (training set) và tụp dừ liệu kiêm thư (test set), kiếm ưa chéo (cross-validation).> Ph tro ng pháp 1Phân chia dữPHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 23 số bộ cùa tập dử liệu được chia vào tập huân luyện, phần còn lại được chia vào tập kiêm thừ. Sư dụng kỹ ihuật phân lớp dê phân lớp lập huấn luyện, sau đó dự đoán phân lớp cho lập dừ liệu kiêm thừ. Độ chính xác dự đoán dược xác định theo công thức: p = CZ/V, với c là sô đôi lượng (bộ) dừ liệu dược Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2phân lớp đúng, N số lượng bộ cùa lặp kiếm thừ.Ltrựng giàĩỹpúù lỉèu k.ènnhuTỊp dử liựuHình 6.ỉ Tân huấn luvên và kiêm thừCHƯƠNG 6 PHÁT TRIÉN TRI THỨC VNhập môn phát hiện tri thức và khai phá dữ liệu phần 2
A KHAI PHA Dư LIẸU• Sai sổ chuẩn (Standard Error)Lưu ý ràng một bộ kiếm thừ sẽ cho một độ chính xác dự đoán khác nhau. Vì vậy, cần có một phương pháp PHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2kê đề tìm ra phạm vi (range) chứa độ chính xác dự đoán với một xác xuât hay độ tin cậy (confidence level) cho trước.Đẻ thực hiện diều này người la sử dụng sai số chuẩn kết hợp với giá trị p. Nêu bộ kiêm thử có N đôi tượng, p đối tượng dược dự đoán đúng, sai số chuấn là y/p(ỉ- p)ỉ N (xem các tài liệu Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2 thống kê).Ý nghía quan trọng của sai số chuẩn là cho phép nói độ chính xác dự đoán là thuộc phạm vi ứng với xác suất chi định là bao nhiêu. Xác suấtNhập môn phát hiện tri thức và khai phá dữ liệu phần 2
hay còn gọi là độ tin cậy ký hiệu CL và giá trị số ứng với sai số chuân được ký hiệu ZcL' Moi lien hệ giữa các giá trị CL và Zcl thế hiện ở hình 6.2ĐộPHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2 Sư dụng bàng này có thê nói ràng: với xác suất CL (hay dộ tin cậy CL) độ chính xác dự doán đúng thuộc khoáng p ±Zcl xS-Ví dụ 6.1: Với tập dữ liệu kiếm thừ có 100 dối tượng, một phàn lớp dùng đê dự đoán có 80 dôi tượng dự doán đúng. Độ chính xác dự đoán ứng với tập kiêm thử này là 80/100-0.8. Sai số Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2 chuẩn sẽ là •JÕÃ*Ỏ.2 / ỉ 00 - \l0.00J6 = 0.04 . Chúng la nói ràng, với xác suất 0.95, độ chính xác dự đoán đủng năm trong khoảng 0.8 ± 1.96 X 0.04 (cNhập môn phát hiện tri thức và khai phá dữ liệu phần 2
ó nghĩa là khoảng (0.7216, 0.8784)).Thay cho độ chính xức dự đoán là 0.8, người la thường Iham chiếu đến ti lệ sai sóĩ (error rate) la 0.2.Giá trị CL PHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2o kỹ thuật, người ta thường sir dụng công thức p ± yjp(l- p)/ N , mà không sứ dụng dại lượng ZcL‘• Huân luyện và kiêm thư lặpTrong trường hợp này, phân lớp dược thừ nghiệm với k (k>l) bô kiểmPHÁT TRIÉN TRI THỨC VÀ KHAI PHÁ DỮ LIỆUCHƯƠNG 6k). Sai số chuẩn ứng với k bộ kiểm thử này sẽ tính theo công t Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2hức: 7p - p)ỈT . Trong đó:p = £p?v,/r; T = ì>,.!■»/> Phuong pháp 2Kiểm tra chéo k-[ặp mẫu con (k-fold Cross-validation)Một phương pháp lượng giá độNhập môn phát hiện tri thức và khai phá dữ liệu phần 2
chính xác dự đoán cua một phân lớp khi số lưọng các đoi tượng tập mẫu nhò là kiêm tra chéo k-Ịập mầu con (hình 6.3).Ncu tập mẫu chứa N đối tượng, chiaPHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chí Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2ần còn lại). Mồi phần lằn lượt là một bộ dừ liệu kiếm thừ, k-1 phần còn lại là tập huận luyện-điều này có nghĩa là quá trình huấn luyện và kiểm thừ được thưc hiện k lân, độ chính xấc dự đoán p là tòng số bộ dự đoán đúng trong k bước lặp chia cho N. Sai số chuấn được tính theo còng thức: 7p(/- p)ỉ N Nhập môn phát hiện tri thức và khai phá dữ liệu phần 2PHÀT TRIÉN TRI THỨC VÀ KHAI PHÀ DỮ LIẸUCHƯƠNG 6CHƯƠNG 6ĐÁNH GIÁ HIỆU NĂNG CỦA MỘT PHÂN LỚP6.1 LƯỢNG GIÁ ĐỌ CHÍNH XÁC Dự ĐOÁN CỦA MỘT PHÂN LÓPTiêu chíGọi ngay
Chat zalo
Facebook