Phí tải tài liệu: 170.000đ

Chú ý: Điền đầy đủ thông tin EMAIL và SĐT khi thanh toán để được hỗ trợ tốt nhất.

DOWNLOAD NOW

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạm

Loại tài liệu: PDF

Số trang: 167 Trang

Tài liệu: ✅ ĐÃ ĐƯỢC PHÊ DUYỆT

TẢI VỀ

Nội dung chi tiết: Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến HỆ PHI TUYÊNLUẬN ẤN TIÊN Sì KỲ THUẬTTP. HỐ CHÍ MINH NĂM 2015ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG DẠI HỌC BÁCH KHOANGUYÊN TÁN LŨYNGĨTĨẾN cưu GĨẢI TIIUẠT nọ

c CUNG CÓ TRONG DIÊU KHIÊN THÍCH NGHI BÉN VŨNG CHO HỆ PHI TUYỀNChuyên ngành: Tự dộng hóa Mà số chuyên ngành: 62.52.60.01Phan biện dộc lập 1: GS.TS Pha Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

n Xuân MinhPhàn biện độc lập 2: PGS.TS Nguyen Chí NgônPhan biện 1: GS.TSKH nồ Đắc LộcPhàn biện 2: PGS.TS Nguyền Ngọc LâmPhàn biện 3: PGS.TS Lê Minh Ph

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

ươngNGUÔI HƯỚNG DÁN KHOA HỌC1TS. NGUYỀN THIẸN THÀNH2TS. HOÀNG MINH TRÍLÒI CAM ĐOANTôi xin cam đoan đày Là công trinh nghiên cửu cùa ban thân tôi. Các

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến khao các nguồn tái liệu dà dược thực hiện trích dằn và ghi nguồn tài liệu tham khao đúng quỵ định.rác giã luận ánNguyền Tấn LũyiTÓM TẤT LUẬN ÁN •Bài t

oán điều khiến tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bời nghiệm của phương trinh Hamilton-Jacobi-Bellman (HJB) và bài toán diều khiên tối ưu Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

bền vừng bị ràng buộc trực tiếp bời nghiệm cúa phương trình Hamilton-Jacobi-Isaacs (HJI) Đây là các phương trinh vi phân phi tuyến không có nghiệm giã

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

i lích. Từ đó, bài toán xấp XI nghiệm IIJB vã IIJI off-line hoặc online dược dặt ra. IIọc cung cồ (Reinforcement Learning (RL)) bắt nguồn từ qui hoạch

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến p hừu hiệu dùng dế xấp XI các nghiệm IIJB và IIJI. Dựa vào cấu trúc diều khiển chuẩn cua ADP bao gồm hai hoặc ba xấp xi hâm. các giài thuật RI. không

ngừng được nghiên cứu và phát triển. Ngày nay, các giãi thuật điều khiên RL lã online, không off-line như nỉiừng nghiên cứu dà còng bố trong nliừng nă Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

m đâu cúa thê ký 21. ví dự, các giãi thuật RI. đà được ihicl kc đe xâp xi nghiệm ARE (Algebraic Riccali Equation) cho hệ tuyên lính với các ma trận tr

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

ạng thái không bicl và sau nãy. xấp XI nghiệm IIJB vã IUI cho hệ phi tuyến với các thành phẩn dộng học trong mô hình hệ thống biết hoặc không biết, có

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến i online (Online Adaptive Dynamic Programming (OA DP)) và qui hoạch động thích nghi ben vừng online (Online Robust Adaptive Dynamic Programming (ORADP

)) lã hai giai thuật chinh dược phàn tích vã thièl kè. (hãi thuật OADP dũng đê xâp xi nghiệm H.IB cho hệ thông phi tuyên ven mồ hình xác dinh. sau dó Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

dược phát triển thành giai thuật ORADP dè xấp XI nghiệm IIJI cho hệ phi tuyên hoàn toàn không có thông Im vê động học nội (internal dynamics). Ban dầu

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

. cấu trúc ADP chuấn với hai hoặc ba xấp XI hâm dược sữ dụng dê chuyến dồi thành càu trúc điêu khiên với duy nhàt một xàp xi hàm đê tránh độ phức tạp

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ược thiết kê. Trong giãi thuật, các luật cập nhật tham số dược đổng bộ hóa trong một bước lập nhằm tăng tốc độ hội tụ. Bên cạnh đó. luật diều khiên ổn

định ban đau đề khới động giãi thuật lã không cần thiết. Từ đó. thù tục thiết kê trờ nên linh hoạt hơn. Giãi thuật đăm bão rang hàm chi phi được lối Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

thiêu, tham sổ xâp xi hâm và luật diêu khiên hội tụ về giá trị cậniilối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xi bị chặn theo tiêu

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

chuẩn ƯUB (Uniform Ultimate Bounded). Ket quà mò phong có so sánh VỚI các phương pháp khác sử dụng hai hoặc ba xấp xi hàm cho thấy tính hiệu quả cùa g

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến (WMR)) được lien hành. So sánh VỚI các giai thuật diều khiển thích nghi khác, giai thuật ORADP diều khiển WMR có một số ưu diêm mói. Thứ nhât, việc c

hia lách bộ điêu khiên động học (kinematic) vã dộng lực học (dynamic) sư dụng phổ biến trong diều khiên thích nghi cho WMR là không càn ihiềl. Từ đó. Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

tránh phụ thuộc vào kinh nghiệm cúa người thiol kế trong việc lựa chọn các tham số cho bộ diều khiên dộng học. Thứ hai. không dòi hói nhận dạng trực l

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

ièp hoặc gián lièp thành phân đọng học không chác chán, không Cấu trúc trong mò hình robot. Cuối cũng, với giai thuật ORADP. hãm chi tiêu chất lượng c

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến rộng cho bài toán diều khiến hợp lác nhiều hệ phi luyến MIMO không sứ dụng thông tin vồ động học nội hệ thống. Ban dầu. lý thuyết dồ thị dược sư dụng

dê thiết lập cầu hình truyền thông phân lán cho nhiêu hệ phi tuyên hợp tác. Sau đó, giãi thuật ORADP được ihiêl kê mờ rộng thành giãi thuật diều khiê Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

n họp tãc thích nghi bền vững. Kết qua diều khiển dồng bộ hóa hệ thống robot bầy đàn lù mò phóng cho thấy lính hiệu quá cùa giãi ihuậl ORADP mờ rộng.i

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

iiABSTRACTThe optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bcllman (HJB) equation and the

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ial equations that have been proven to be impossible to solve analytically, since then, the problems for approximating off-line or online H.IB and HJ1

solutions arc devoted, rhe reinforcement learning (RL) method, at first. derived from the dynamic programming (DP) theory, and then, developed into a Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

daptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions. Based on the standard

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

control Structure of ADP. including two or three approximators. RL algorithms are studied and developed continuously. Nowadays, these algorithms arc

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ping to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown slate matrices, and after that. H.IB and HJI soluti

ons for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance.This thesis proposes reinforcement learn Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

ing-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive Dyn

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

amic Programming (ORADP) are two main analyzed and designed algorithms. OADP algorithm is used to approximate a IIJB solution for the nonlinear system

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến of internal dynamics. Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only si

ngle approximator Io avoid the complex computation and waste of resources in order to accelerate the speed of update processes. Then, novel update law Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

s for the approximator's parameters and the novel algorithms arc designed. In the algorithm, parameter update laws are synchronized in one iterative s

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

tep to increase the speed of convergence. Besides, any stability control laws to initialize algorithm is not needed; Therefore, the design procudures

ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO