KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạmNội dung chi tiết: KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
ĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB Nghệ Thông TinCán bộ hưóìig dẫn: Lê Anh CườngHÀ NỌI - 2009Tóm tắtCơ sớ dừ liệu song ngừ. bao gồm các cặp văn bán song ngừ hay các cặp câu song ngừ. đóng một vai trò rắt quan trong trong nhiều ứng dung ngôn ngữ tự nhiên, như dịch máy thống kè. xây dựng tù điên song ngừ. tìm kiếm đa ngôn ngừ. Việc xây KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB dựng cơ sở dử liệu này băng tay là một việc tốn nhiều chi phi và thời gian. May mắn thay Là cỏ rất nhiều dữ liệu song ngữ ờ các dạng khác nhau trên IKHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
nternet. Việc khai phá ra các thành phan tương đương (song ngữ) với chất lượng cao sê tạo nên một cơ sở dử liệu song ngừ rất lớn phục vụ cho nhiều ứngĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB cụ thè là trên các trang web song ngừ trong đinh dang html. Nhiệm vụ cua khai phá dừ liệu song ngừ là tự động tim ra hai thành phần có ngừ nghĩa tương ứng trong tập nhùng vãn ban thuộc hai ngôn ngừ khác nhau. Hai thành phần được dóng hàng hoặc đươc ghép cặp này càng nhó thi thông tin hay tri thức th KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB u đươc từ đó càng lớn. Thành phần ớ đây có thề Là văn bân. đoạn, câu và từ.... Loại thành phần mà chúng tôi xét đen trong luận văn này là văn bân.Đê gKHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
hép cặp nhùng vàn băn html trong một tập văn bàn trong hai ngôn ngữ mà luận văn khai thác là tiếng Anh và tiếng Việt, chủng tôi tim hiếu các công nghệĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB n này là dựa ttên nội dung (thông thường Là dựa trên đối sánh các cặp từ là ban dịch cũa nhau - từ điên song ngừ), hoặc là dưa trên sư tương đồng về cấu trúc trang html. Trong phạm vi luận văn này. chúng tôi theo tiếp cận dưa trên cấu trúc. Cụ thè chúng tỏi khao sát các đặc trưng cấu trúc khác nhau KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB như độ tương đổng can trúc the cúa văn bán. độ tương đong cấu trúc url cua vãn bán. và nhiều yếu tố phụ đề giam thời gian chạy cùa hệ thống Đồng thờiKHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
chúng tòi cùng theo tiếp cận học máy (theo [5]). và áp dụng phương pháp học cây quyết định cho bài toán nãy. Đặc biệt chủng tòi đà mô hình hóa bài toáĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB ực nghiệm, chúng tòi xây dựng một hệ thong lãm các nhiêm vu: chuẩn bi cơ sờ dừ liệu thô từ Internet; một so bước tiền xư lý ngôn ngừ; và các mô đun dóng hãng văn bân. Ket quà đạt được là khá khả quan với độ chính xác dóng hàng văn bán khoáng 96% đối với mô hình phân loại Bayes.1Mục lụcTóm tắtMục lục KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB Mờ đầu ................................................................3Chương 1 Giói thiệu....................................................41.1.VaKHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
i trò tầm quan trọng cùa dừ liệu song ngừ.....................41.2.Các nghiên cứu hên quan.........................................51.3.Mục tiêu và tiĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB huật cho bài toán khai phá dữ liệu song ngữ.112.1.Lọc theo cấu trúc..................................................112.2.Lọc theo nội dung..............................................142.3 Các đặc trưng khác..............................................162.4.Thuật toán lập trinh động............. KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB .........................17Chương 3. Mô hình học máy cho bài toán đối sánh văn bân...............203.1 Mô hình phân loại theo cây quyết định..........KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB
.................203.2.Mô hình phân loại Bayes........................................24Chương 4. Thực nghiệm và kết quá..............................ĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông N KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB 3.Xây dựng cơ sở dừ liệu thò.........................................314.4.Xây dựng bộ ph.ân loại và kết quà phân loại....................344.5.Hướng dần sứ dụng chương trinh.....................................36Kết luận..................................................................38 KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB ĐẠI HỌC QUÓC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHẸNguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: C ông NGọi ngay
Chat zalo
Facebook