Phương pháp lọc thư rác dựa trên CBR
➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạmNội dung chi tiết: Phương pháp lọc thư rác dựa trên CBR
Phương pháp lọc thư rác dựa trên CBR
Luận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR m, tác hại, các hình thức phát tán thư rác...), tập trung định hướng tới các phương pháp lọc thư rác. đặc biệt là phương pháp lọc dưa trên nội dung.Trong các phương pháp lọc theo nội dung, khóa luận quan tâm mò tả, phân tích hệ thống hệ thống Email Classification Using Examples (ECUE), một phương ph Phương pháp lọc thư rác dựa trên CBR áp lọc spam dựa trên nội dung do Delany và Cunningham đề xuất năm 2004 [4], Khóa luân mò tà kiến trúc của CBR và kiến trúc hệ thống ECUE. Hệ thống ECUPhương pháp lọc thư rác dựa trên CBR
E có khả năng giãi quyết được van de concept drift, hệ thống được xây dựng dựa trên phương pháp Case-Based Reasoning (CBR) [ 1 ] với việc coi các emaiLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR ft ECƯE có hai thành phan chính Lã: Case-base Editing và case-base update policy [5]. Phan cuối củng cũa khóa luận trinh bây về kết quã thực nghiệm tiến hành trên hệ thống lọc thư rác sứ dụng thuật toán Bayes theo chương trinh Spambayes.ỉMở đâuMỘI trong nhũng dịch vụ mà Internet mang lại đó là dịch Phương pháp lọc thư rác dựa trên CBR vụ thư điện tứ. đó là phương tiện giao tiếp rất dơn gian, tiện lợi. re và hiệu qua giừa mọi người trong cộng đông sù dụng dịch \ ụ Internet, luy nhiênPhương pháp lọc thư rác dựa trên CBR
chính vì nhùng lợi ích của dịch vụ thư điện tứ mang lại mà số lượng thư trao dổi trên Internet ngày càng tăng, vâ một số không nhò trong số đó là thuLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR i khó chịu cho người dùng, làm giâm tốc độ truyền internet và tóc độ xứ lý cùa email server, gày thiệt hại rất lởn về kinh tế.Đã có rất nhểu phương pháp dưa ra đế giâm số lượng thư rác. Như việc đưa ra các luật lệ đê hạn chê việc gứi thư rác. đưa ra các phương pháp kì thuật lọc thư rác như: lọc dựa Phương pháp lọc thư rác dựa trên CBR trên dia chi IP (whitelist, balacklist), lọc dưa ưên danh tính người gửi. lọc dựa trên chuồi hói đáp. phương pháp lọc dưa trên mạng xà hội. và phươngPhương pháp lọc thư rác dựa trên CBR
pháp lọc nội dung...Mỏi phương pháp đều cỏ ưu nhược diêm riêng, không có phương pháp nào là ho.àn hão vi vậy đề cỏ bộ lọc thư rác tốt cân phái kết hợpLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR riển vọng đưa ra kết qua cao. Phương pháp lọc nội dung dựa trên việc phân tích nội dung cùa email dể phân biệt spam email vã nonspam email.Tuy dà có nhiều biện pháp ngăn chặn thư rác nhưng số lượng thư rác vần càng ngây càng nhiêu, lác hại gầy ra càng lớn, cầu trúc nội dung cùa thư càng ngày câng th Phương pháp lọc thư rác dựa trên CBR ay đòi tinh vi hon đề vượt qua các bộ lọc vì vậy cân có một hệ thông lọc có khá nấng giãi quyết dược vấn dể thư rác ngây câng ĩãng. nội dung, cấu trúcPhương pháp lọc thư rác dựa trên CBR
cua thư ngày câng phức tạp tinh vi hon (concept drift).Đà có nhiều hệ thống học máy lọc thư rác sứ dụng các thuật toán Naive bayes, phàn lớp dựa trênLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR khá tốt[17]. Tuy nhiên các mò hình này chưa giãi quyết được vấn de concept drift . Một mô hình mới đà dược Delany(2006) đề xuất, dựa trên hệ thống học máy sứ dụng phương2pháp Case-Based Reasoning (CBR)(Riesbeck and Shank 1989)[17] có kha năng giải quyết được concept drift. Phương pháp CBR. sứ dụng c Phương pháp lọc thư rác dựa trên CBR ác vấn đề trước đây đã được giãi quyết đê đưa ra giãi pháp cho vấn đề mới. Các vấn đề đã dược giãi quyết được lưu vào tập dừ liêu dùng đê huân luyện gPhương pháp lọc thư rác dựa trên CBR
oi là case-base Các case được biêu diễn dưới dạng véc tơ n chiều, mồi thành phần là một token đà được trích chon từ việc phàn tích cú pháp, phân tích Luận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR lọc thư rác có hai vấn đề chinh là: Làm thế nào đế quân lỷ được tập dữ liệu huân luyện(case-base), chữa một sổ lượng lớn email cúa người dùng. Thứ hai Là làm thế nào đê điểu khiên được vấn đề concept drift. Đê quân lý được dữ liệu huấn luyện CBR áp dụng các luật để điều chinh case-base(case-base Edi Phương pháp lọc thư rác dựa trên CBR ting), nhằm đưa ra tập case-base chứa các case có kha năng dự đoán cao nhất cho việc phân lớp case mới. Đe giãi quyết đươc concept drift CBR thực hiệnPhương pháp lọc thư rác dựa trên CBR
việc lưa chọn lại các đặc trưng và case mới tốt nhất cho việc xác định lớp cho case mói.Trong khóa luân này tôi xin trinh bày hướng tiệp cận của EmaiLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR âm Là: Còng nghệ sử dụng cho Case-base Editing Là Competence Based Editing(CBE)(Smyth và McKenna 1998); và Case-base update policity. CBE có hai chức nàng chinh là loại bó case nhiều và case dư thừa, việc loai bò case nhiều áp dung thuật toán Blame Based Noise Reduction (BBNR), việc loại bó case dư Phương pháp lọc thư rác dựa trên CBR thừa áp dụng thuật toán Conservative Redundancy Reduction (CRR)(Riesbeck and Shank 1989) [17]. Case-base update policy thực hiện việc đưa các case dãPhương pháp lọc thư rác dựa trên CBR
được phân lóp là spam, nonspam vào case-base đê đưa dự đoán lóp cho case tiếp theo, trong trưởng hơp cho case học lại, case-base update policy thực hiLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR nhưng dịch vụ mà Internet mang lại đó là dịch vụ thư điện tử, đó là phương tiện giao tiếp rất đơn gián, tiên lợi. ré và hiệu qua giừa mọi người trong cộng đong sử dụng dịch vụ Internet. Tuy nhiên chính vì những lợi ích của dịch vụ thư điện tứ mang lại mà số lượng thư trao đổi trên Internet ngày càng Phương pháp lọc thư rác dựa trên CBR tăng, và đa số trong số những thư đó là thư rác (spam). Thư rác thường được gửi với số lượng rất lớn, không được người dùng mong dơi. thường với mụcPhương pháp lọc thư rác dựa trên CBR
đích quãng cáo. đính kèm virus, gây phiền toái khó chịu cho người dùng. Làm giâm tốc độ truyền internet và tốc đô xừ lý cua email server, gây thiệt hạLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR ngãn chặn thư rác.1.1Một số khái niệm cơ bàn1.1.1Định nghĩa thư rác.Hiện nay vẫn chưa có một định nghĩa hoàn chỉnh, chặt chè về thư rác. Có quan điềm coi thư rác Là nhừng thư quàng cáo không được yêu cầu (Unsolicited Commercial Email-UCE). có quan diêm rông hơn cho rang thư rác bao gom thư quàng cáo Phương pháp lọc thư rác dựa trên CBR , thư quay rối. và những thư có nội dung không lành mạnh (Unsolicited Bulk Emai -UBE). Sau đây sỗ đưa ra một định nghĩa thông dụng nhất về thư rác vàPhương pháp lọc thư rác dựa trên CBR
giải thích các đặc diêm của nó đê phân biệt thư rác với thư thông thường [18.19]:Thư rác (spam mail) là những bức thư điện tử không yêu cầu. không monLuận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR thư được gửi hàng loạt thi nó có thê là thư gửi cho khách hàng của các công ty. các nhã cung cấp dịch VỤ- Vi thế một bức thư bị coi là rác khi nó không đươc yêu cầu. và được gửi hàng loạt.Tuy nhiên yếu lố quan trọng nhất đê phân biệt thư rác VÓI thư thòng thường là nội dung thư. Khi một người nhận đ Phương pháp lọc thư rác dựa trên CBR ược thư rác. người đó không thê xác định được thư đó được gửi hàng loạt hay không nhưng có thè xác định được đó là thư rác sau khi đọc nội dung thư. ĐPhương pháp lọc thư rác dựa trên CBR
ặc diêm này chinh là cơ sở cho giãi pháp phân loại thư rác bang cách phàn tích nội dung thư.1.1.2Phân loại thư rácCó rất nhiều cách phân loại thư rác[Luận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR di động (Short Message Sen ice - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger. Windows Messenger...)-Dựa vào quan hệ với người gữi thư rác: bao gồm người lạ mặt. bạn bè, người quen và các dịch vụ quyên góp giúp dờ...-Dựa vào nội (tung cùa thư rác: các kiêu nội dung phô biến như t Phương pháp lọc thư rác dựa trên CBR hư về thương mại. thư về chinh trị. thư về công nghệ, chuồi thư (chain e-mail) và các loại khác (như thư phát tán virus...).-Dựa trên động lực cùa ngưPhương pháp lọc thư rác dựa trên CBR
ời gưi: Thông thường, thư rác được gửi đi cho những mục đích quang bá thòng tin. Ngoài ra. còn có một số loại thư rác đươc gửi tới một người nhận xác Luận văn tốt nghiệpPhuong pháp lọc thư rác dựa trên CBRTóm tãt nội dung khóa luậnKhóa luận trình bày một sổ nội dung cơ bân nhất về thư rác (khái niệm Phương pháp lọc thư rác dựa trên CBR hư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch, lâm xáo trộn công việc và cuộc sống của người nhận.Sự phân loại thư rác rất quan trong không chi trong lình vực tạo nhùng bộ lọc thư rác có hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chong thư rác phù hợp. Phương pháp lọc thư rác dựa trên CBRGọi ngay
Chat zalo
Facebook