KHO THƯ VIỆN 🔎

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

➤  Gửi thông báo lỗi    ⚠️ Báo cáo tài liệu vi phạm

Loại tài liệu:     PDF
Số trang:         110 Trang
Tài liệu:           ✅  ĐÃ ĐƯỢC PHÊ DUYỆT
 











Nội dung chi tiết: Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt hanh.lb202777M@sis.husl.edu.vn Ngành Kỹ thuật Điện tứGiáng viên hường dàn:TS. Nguyền Vù ThăngTrường:Diện- Diện từHÀ NỘI, 2022CỘNG HÒA XÀ HỘI CHỦ NGHỈ

A VIỆT NAM Độc lập - Tự do - Hạnh phúcBẢN XÁC NHẬN CHỈNH SỦ A LUẬN VÀN THẠC sìHọ và tên tác già f)ề tài luận vãn: LẼ BÍCH HẠNH : Nghiên cứu phát triển Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

thuật toán nhận dạng, trích xuất (hòng lùi trong Van ban liêng Việt( huyên ngành Mà SỐ HV: Kỳ thuật Diện lư : 20202777MTác gia. Người hướng dần khoa

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

học và Hội dồng chắm luận vãn xác nhận dã sưa chừa, bô sưng luận vàn ihco biên bán họp Hội đòng ngày 07 10 2022 vin các nội dưng sau:•Dánh số ihứ lự c

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt T 4.1. PT 4.2. PT 4.4. PT 4.5•Bô sưng lài liệu iham khảo: Bô sung các lài liệu tham kháo [61, [361,(37], [381, L39J. [40J. [41J. [42J. [43J. [44J. [45

J. [46J. [47J. [48J. [49J. [50J. [51J•Bố sung Kcl luận chưomg: Bồ sung kếl luận chương 2 trang 61, kểl luận chưomg 3 trang 76, kết luận chương 4 trang Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

90•Chính sứa lại phần Kốl luận chi tiết, hợp lý hơn: Dà chinh sứa phần Kcl luận trang 92•Làm rò phạm vi, đối lượng của luận văn: Bô sung lại Irang 1•

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

Việt hóa tại sơ dồ xừ lý: Sư dụng vãn phong tiếng Việt thay thế. dà chinh sửa trong Hình 1.2•Chinh sữa lại các lỗi chinh ta: Sửa các lỗi chính tã khi

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt Ngày 27 tháng 10 năm 2022Giáng viên hướng dẫnTác giá luận vãncnủ TỊCH IIỌI ĐÔNGLỜIMỞĐẰƯBài toán trích xuất thông tin trong vãn băn (Information extrac

tion) dược khởi xướng lừ nhùng năm 70s (DeJong’s FRUMP program). Sau này đà thành lập Message Understanding Conferences - MUC vào những năm 90s. Tuy b Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

ài toán dà xuất hiện S('mi nhưng vần còn nhiều thách thức khi xuất hiện nhiều mầu vãn bàn khác nhau và quá trình chuyển dồi từ vãn ban từ dinh dạng sc

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

an sang định dạng text. Bài toán trích xuàt thông tin vãn bàn đi kèm vói công việc xứ lý ngôn ngừ lự nhiên, trong đó xử lý ngôn ngừ nr nhiên bao gồm n

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt ừ viết tay. Các công trinh nghiên cứu về nhận dạng chừ viết, trích xuất thông tin trong vàn bán mới dừng lại nhiêu ỡ ngồn ngừ riềng Anh, liêng việt cò

n chưa dược khai phá nhiều.Ung dụng vào bài toán trích xuâl thông Un trong văn bân tiêng việt, đê lài sè tập trung nghiên cứu, xây dựng một hệ thống h Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

oàn chinh từ phân tách, nhận diện chừ viết trong vãn bán định dạng ánh hay bán scan đèn trích xuầl lự động các thòng tin quan trọng trong văn ban. Cụ

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

thè nghiên cứu sê ứng dụng trên hóa dơn thanh toán tiếng việt, bao gôm hóa đem chừ in và hóa đơn chừ vièl lay.Đê trích xuất dược thông tin trong vãn b

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt ãn bân và cưôi cùng sè chọn lọc phân loại đê lìm ra các thông Im theo yêu câu. Vói Sự phát triền cùa thị giác máy lính và học sâu (deep learning), ngh

iên cửu SC sữ dụng các mô hình deep learning khác nhau đê giãi quyêl lân lượt các vân đê trên. Cuòi cùng các chức nàng sè được lông hợp đê hoàn thành Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

một hệ thông hoãn chinh.Đẽ hoãn thành tốt nghiên cứu luận vãn "Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn ban tiếng Vi

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

ệt”, em xin chân thành cam ơn TS. Nguyền Vù Thẳng đà tận tinh giúp dờ trong suốt quá trinh làm nghiên cứu vã viết luận văn.TÓM TẤT LUẠN VĂN •Luận vãn

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt tin khác nhau với dầu vào là ảnh chụp hóa dơn hoặc bán scan không thế tác dộng hay chình sủa Hệ thống được thủ nghiệm với nhiêu mẫu hóa đơn khác nhau

bao gồm cá chừ in vã chừ viết tay. Tiến hành thu thập dữ liệu là các hóa dơn thanh toán trên internet thu được 240 ành, vói 48 mau hóa đơn khác nhau v Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

à tự xây dựng thêm các hóa dơn SỪ dụng chừ viết tay. số lượng bao gồm 144 ảnh. vói 48 mẫu khác nhau, thu thập chừ viết của 20 người bao gồm nhiều lứa

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

luối và giới tính khác nhau, về thuật toán nhận dạng, trích xuất thòng tin. nghiên cứu chia Làm ba bước tương ứng với ba bài toán nhó, ba bước lần lượ

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt g dụng deep learning đế giãi quyết. Bài toán nhận dạng chừ viết, nghiên cứu thứ nghiệm SO sánh ba mò hình Faster R-CNN. cascade R-CNN. YoLov4. Bài toá

n nhận dạng kỷ tự quang học, nghiên cứu thừ nghiệm so sánh hai mô hình là AllcnlionOCR và TransformerOCR côn bài toán còn Lại nghiên cứu tập chung thư Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

nghiệm mô hĩnh Graph Convolutional Network (GCN). Chương trình nhận dạng, trích xuàl thông tin dược triền khai viết bằng ngôn ngừ Python, thực hiện h

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

uấn luyện mò hĩnh mạng sứ dụng thư viện p\ torch.Luận vãn nghiên cứu dã hoán thành hệ thống từ dầu dền cuối từ nhận dạng chừ viết dến trích xuất các t

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt nh xác là 92% cho hóa đơn chừ in và 78% cho chừ viêt lay. Cuối cùng một trang web dim gián cùng được xây dựng đê người dùng có thê thứ nghiệm và quan

sát trực quan kèl quá.HỌC VIÊN’ Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

TRƯỜNG Đ/XI HỌC BÁCH KHOA HÀ NỘILUẬN VĂN THẠC sĩNghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiêng ViệtLÊ BÍCH HẠNH

Gọi ngay
Chat zalo
Facebook