Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
➤ Gửi thông báo lỗi ⚠️ Báo cáo tài liệu vi phạmNội dung chi tiết: Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến HỆ PHI TUYÊNLUẬN ẤN TIÊN Sì KỲ THUẬTTP. HỐ CHÍ MINH NĂM 2015ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG DẠI HỌC BÁCH KHOANGUYÊN TÁN LŨYNGĨTĨẾN cưu GĨẢI TIIUẠT nọc CUNG CÓ TRONG DIÊU KHIÊN THÍCH NGHI BÉN VŨNG CHO HỆ PHI TUYỀNChuyên ngành: Tự dộng hóa Mà số chuyên ngành: 62.52.60.01Phan biện dộc lập 1: GS.TS Pha Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến n Xuân MinhPhàn biện độc lập 2: PGS.TS Nguyen Chí NgônPhan biện 1: GS.TSKH nồ Đắc LộcPhàn biện 2: PGS.TS Nguyền Ngọc LâmPhàn biện 3: PGS.TS Lê Minh PhNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
ươngNGUÔI HƯỚNG DÁN KHOA HỌC1TS. NGUYỀN THIẸN THÀNH2TS. HOÀNG MINH TRÍLÒI CAM ĐOANTôi xin cam đoan đày Là công trinh nghiên cửu cùa ban thân tôi. Các ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến khao các nguồn tái liệu dà dược thực hiện trích dằn và ghi nguồn tài liệu tham khao đúng quỵ định.rác giã luận ánNguyền Tấn LũyiTÓM TẤT LUẬN ÁN •Bài toán điều khiến tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bời nghiệm của phương trinh Hamilton-Jacobi-Bellman (HJB) và bài toán diều khiên tối ưu Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến bền vừng bị ràng buộc trực tiếp bời nghiệm cúa phương trình Hamilton-Jacobi-Isaacs (HJI) Đây là các phương trinh vi phân phi tuyến không có nghiệm giãNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
i lích. Từ đó, bài toán xấp XI nghiệm IIJB vã IIJI off-line hoặc online dược dặt ra. IIọc cung cồ (Reinforcement Learning (RL)) bắt nguồn từ qui hoạchĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến p hừu hiệu dùng dế xấp XI các nghiệm IIJB và IIJI. Dựa vào cấu trúc diều khiển chuẩn cua ADP bao gồm hai hoặc ba xấp xi hâm. các giài thuật RI. không ngừng được nghiên cứu và phát triển. Ngày nay, các giãi thuật điều khiên RL lã online, không off-line như nỉiừng nghiên cứu dà còng bố trong nliừng nă Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến m đâu cúa thê ký 21. ví dự, các giãi thuật RI. đà được ihicl kc đe xâp xi nghiệm ARE (Algebraic Riccali Equation) cho hệ tuyên lính với các ma trận trNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
ạng thái không bicl và sau nãy. xấp XI nghiệm IIJB vã IUI cho hệ phi tuyến với các thành phẩn dộng học trong mô hình hệ thống biết hoặc không biết, cóĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến i online (Online Adaptive Dynamic Programming (OA DP)) và qui hoạch động thích nghi ben vừng online (Online Robust Adaptive Dynamic Programming (ORADP)) lã hai giai thuật chinh dược phàn tích vã thièl kè. (hãi thuật OADP dũng đê xâp xi nghiệm H.IB cho hệ thông phi tuyên ven mồ hình xác dinh. sau dó Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến dược phát triển thành giai thuật ORADP dè xấp XI nghiệm IIJI cho hệ phi tuyên hoàn toàn không có thông Im vê động học nội (internal dynamics). Ban dầuNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
. cấu trúc ADP chuấn với hai hoặc ba xấp XI hâm dược sữ dụng dê chuyến dồi thành càu trúc điêu khiên với duy nhàt một xàp xi hàm đê tránh độ phức tạp ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ược thiết kê. Trong giãi thuật, các luật cập nhật tham số dược đổng bộ hóa trong một bước lập nhằm tăng tốc độ hội tụ. Bên cạnh đó. luật diều khiên ổn định ban đau đề khới động giãi thuật lã không cần thiết. Từ đó. thù tục thiết kê trờ nên linh hoạt hơn. Giãi thuật đăm bão rang hàm chi phi được lối Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến thiêu, tham sổ xâp xi hâm và luật diêu khiên hội tụ về giá trị cậniilối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xi bị chặn theo tiêuNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
chuẩn ƯUB (Uniform Ultimate Bounded). Ket quà mò phong có so sánh VỚI các phương pháp khác sử dụng hai hoặc ba xấp xi hàm cho thấy tính hiệu quả cùa gĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến (WMR)) được lien hành. So sánh VỚI các giai thuật diều khiển thích nghi khác, giai thuật ORADP diều khiển WMR có một số ưu diêm mói. Thứ nhât, việc chia lách bộ điêu khiên động học (kinematic) vã dộng lực học (dynamic) sư dụng phổ biến trong diều khiên thích nghi cho WMR là không càn ihiềl. Từ đó. Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến tránh phụ thuộc vào kinh nghiệm cúa người thiol kế trong việc lựa chọn các tham số cho bộ diều khiên dộng học. Thứ hai. không dòi hói nhận dạng trực lNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
ièp hoặc gián lièp thành phân đọng học không chác chán, không Cấu trúc trong mò hình robot. Cuối cũng, với giai thuật ORADP. hãm chi tiêu chất lượng cĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến rộng cho bài toán diều khiến hợp lác nhiều hệ phi luyến MIMO không sứ dụng thông tin vồ động học nội hệ thống. Ban dầu. lý thuyết dồ thị dược sư dụng dê thiết lập cầu hình truyền thông phân lán cho nhiêu hệ phi tuyên hợp tác. Sau đó, giãi thuật ORADP được ihiêl kê mờ rộng thành giãi thuật diều khiê Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến n họp tãc thích nghi bền vững. Kết qua diều khiển dồng bộ hóa hệ thống robot bầy đàn lù mò phóng cho thấy lính hiệu quá cùa giãi ihuậl ORADP mờ rộng.iNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
iiABSTRACTThe optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bcllman (HJB) equation and the ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ial equations that have been proven to be impossible to solve analytically, since then, the problems for approximating off-line or online H.IB and HJ1 solutions arc devoted, rhe reinforcement learning (RL) method, at first. derived from the dynamic programming (DP) theory, and then, developed into a Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến daptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions. Based on the standardNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
control Structure of ADP. including two or three approximators. RL algorithms are studied and developed continuously. Nowadays, these algorithms arc ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ping to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown slate matrices, and after that. H.IB and HJI solutions for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance.This thesis proposes reinforcement learn Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ing-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive DynNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
amic Programming (ORADP) are two main analyzed and designed algorithms. OADP algorithm is used to approximate a IIJB solution for the nonlinear systemĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến of internal dynamics. Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only single approximator Io avoid the complex computation and waste of resources in order to accelerate the speed of update processes. Then, novel update law Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến s for the approximator's parameters and the novel algorithms arc designed. In the algorithm, parameter update laws are synchronized in one iterative sNghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến
tep to increase the speed of convergence. Besides, any stability control laws to initialize algorithm is not needed; Therefore, the design procudures ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHO ĐẠI HỌC' QUỐC GIA TP. HÓ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOANGUYỄN TÂN LỪYNGHIÊN CỨ U GIẢI THUẬT HỌC C ỦNG CÓ TRONG ĐIỀU KHIÊN THÍCH NGHI BỀN V ÙNG CHOGọi ngay
Chat zalo
Facebook