Phương pháp phân loại văn bản dựa trên cách tiếp cận knn
➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạmNội dung chi tiết: Phương pháp phân loại văn bản dựa trên cách tiếp cận knn
Phương pháp phân loại văn bản dựa trên cách tiếp cận knn
Phàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knntin trực tuyến. Nó cỏ the dược sử dụng de tổ chức cơ sở dừ liệu vãn bản, lọc thư diện từ tìm kiếm thòng tin liên quan den Web. hoặc de chi dần người dùng tim kiếm thông tin qua các siêu vàn bản hypertext). Mả ớ dó. việc phản loại vãn bán bang tay lả không the thực hiện dược, hoặc thực hiện với chi p Phương pháp phân loại văn bản dựa trên cách tiếp cận knnhí lòn kém nhất. Do đó. cùng với sự phát triên cùa thòng tin trực luyến, một yêu cau cấp thiết dặt ra là can phải xây dựng hệ thong phản loại vãn bànPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
tự động.Cho den nay. dã có nhiêu đề xuất xây dựng bài toán phân loại vãn bán tự động như Neive Bayes. Bayes net. K- láng giêng gan nhát, cây quyết địnPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knng Quốc đà được ứng dụng thực tế như trong các tim kiểm cúa Yahoo. Altavista. Google,... Trong đó. K- láng giềng gan nhất là một cách tiếp cận cho độ chính xác của phân loại văn ban cao hơn hản các phương pháp phân loại khác.(5 Việt Nam. cũng đà có nhiêu nghiên cứu về lĩnh vực xử lý văn bân tiêng Việ Phương pháp phân loại văn bản dựa trên cách tiếp cận knnt, như dề tia nghiên cứu về Máy dịch tự dộng Anh -Việt (EVTRan) của viện nghiên cứu ứng dụng công nghệ, de tãi nhận dạng, xử lý tiêng Việt VnDoc của vPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
iện công nghệ thông tin và nhiều luận vãn tỏt nghiệp cao học dại học khác. Nhưng nghiên cứu về phân loại van ban liêng việt chưa nhiêu và kết quả con Phàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnột van de liên quan mật thiết den toe dộ xử lý cũng như dộ chinh xác cúa quá trinh phân loại số chiều cùa vector biêu diễn vãn ban. Neu dùng các lir trong ùr diên làm dặc trưng dế biếu diễn vãn bàn thi mồi vãn bán tiếng Việt dược biểu diễn bâng một vector có hơn 70 nghìn chiều (lương đương với số từ Phương pháp phân loại văn bản dựa trên cách tiếp cận knn trong tư diển tiếng Việt). 70 nghìn là con số quá lớn khi ta có đến hàng triệu vãn bàn canfit) 4\t TÔT WỈỈ-ỈỈFP-1Phân loại vân bân tiếng Việt với giãPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
i thuật K-NNxứ lý trong quá trinh phân loại. Để tăng tốc độ xư lý và độ chính xác cua kết qua phân loại văn bân. trong luận vãn này em xin đề xuất mộtPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnn Tiếng Việt Sư dụng phương pháp KNN.Nội dung luận văn bao gôm 6 chương, cụ thè:-Chương I: Trinh bày tòng quan về khai phá dừ liệu vãn bân và bài toán phân loại văn bàn.-Chương II: Trinh bày các van đe của quá trinh tiên xử lý vân bân tiếng Việt (tách từ lựa chọn đặc trưng, biêu diễn vãn bân).-Chươn Phương pháp phân loại văn bản dựa trên cách tiếp cận knng II: Một số phương pháp phân loại truyền thong.-Chương IV: Phương pháp phân loại vãn bân dựa trên cách tiếp cận KNN.-Chương V: Chương trinh kết quà tPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
hực nghiệm.-Chương VI: Kết luận và hướng phát triển cua luận văn.Do thời gian và hiểu biết còn hạn che. nên luận văn còn nhiều thiếu sót. em rất mong Phàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnNG QUAN VẺ KHAI PHÁ VĂN BẢNMục đích của chương này là giới thiệu một cách tóm tat về van đe khai phá dừ liệu văn bân. bài toán phân loại văn bân.-Khai phá dừ liệu văn bàn là gì?-Các bước đẻ xây dựng bài toán khai phá dừ liệu văn bân.-Bài toán phàn loại văn bàn1.1.Khai phá dữ liệu vãn bán (Text minin Phương pháp phân loại văn bản dựa trên cách tiếp cận knng)Văn bàn là một trong những dạng dữ liệu phò biến nhất, hiện nay. nó có mặt ờ khắp mọi nơi và chung ta thường xuyên bat gặp hàng ngày. Do đó. các bàiPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
toán xừ lý văn bán đà được đặt ra từ khá lâu và cho den nay van là một trong nhùng van đe hay trong khai phá dừ liệu văn bân (text), trong đó có nhữnPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnu văn ban có thể chia làm hai loại:Dạng không có cấu trúc (unstructured): Những văn ban thòng thường mà chúng ta thường đọc hàng ngày dược thê hiện dưới dạng ngôn ngừ tự nhiên cúa con người và nó không có một cấu trúc định dạng nào.Dạng bán cấu trúc (semi- structured): Nhùng văn ban được tô chức dướ Phương pháp phân loại văn bản dựa trên cách tiếp cận knni dạng cấu trúc không chặt chè thành bàn ghi mà dùng các ký hiệu đánh dấu văn bân vần the hiện được nội dung cúa văn bân. vi dụ như các dạng HTML, emaPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
il,...Trong luận văn này. em chi quan tâm xừ lý dử liệu văn ban ớ dạng phi can trúc (biêu diễn văn bản dưới dạng tập tin TXT), bãi toán được giãi quyếPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnNNCó nhiều cách phân lớp các lĩnh vực trong xứ lý văn ban, Lewis đả chia thành hai nhóm lỉnh vực chinh lã phản lớp văn băn (TextClàssiíítion) gồm các công việc xác định vân ban hoặc một phân cua vân ban vào một hay nhiều lớp xác định trước và hiểu nghía vãn băn (Text Understanding) bao gom các công Phương pháp phân loại văn bản dựa trên cách tiếp cận knnviệc phức tạp hưn đê xơ lý nội dung cua vãn ban như tóm tat van ban (Text Summarization hoặc Abstraction), trích chọn thông tin (Text Extraction),...Phương pháp phân loại văn bản dựa trên cách tiếp cận knn
Tuy nhiên, việc phân làm hai lớp củng không thật rò ràng, trong các hệ phần mem. người ta thường kết hợp hai lớp bài toán trên như trong hệ tim kiem (Phàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông t Phương pháp phân loại văn bản dựa trên cách tiếp cận knnm kiếm Yahoo. Altavíta. (ìoogle... đều tồ chức dừ liệu theo các nhóm và các mục. mồi nhóm lại bao gom nhiều nhỏm con năm trong nó. Hệ phan mem tim kiêm cua Altavista. Google, con tích hợp thèm chương trinh dịch tự dộng có thể dịch chuyển đổi sang nhiều thử Tiếng khác nhau và cho kết qua rat tốt.Khai Phương pháp phân loại văn bản dựa trên cách tiếp cận knn phá văn ban (Text mining) là một nhánh cúa khai phá dữ liệu (Data mining), có mục đích lã phát hiện và rút thông tin. tìm kiêm thông tin từ các tài lPhương pháp phân loại văn bản dựa trên cách tiếp cận knn
iệu văn ban (text documents). Khai phá văn ban liên quan tới các vấn đe như: xữ lý ngôn ngừ tự nhiên trích rút thông tin. tìm kiếm thông tin. khai pháPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông tPhàn loại văn bân tiếng Việt với giãi thuật K-NNMỞ ĐẦUTrong những năm gàn đày phân loại văn ban đà Irư thành một kỳ thuật then chốt dể tô chức thông tGọi ngay
Chat zalo
Facebook