Управление положением подводного робота с волнообразным движителем с использованием сквозного глубокого обучения с подкреплением

Ахмад Авс
Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет) (МГТУ им. Н.Э. Баумана), кафедра Робототехнические системы и мехатроника, аспирант, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Ющенко Аркадий Семенович
д.т.н., профессор, МГТУ им. Баумана, заместитель заведующего кафедрой «Робототехнические системы и мехатроника, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Соловьев Владимир Игоревич
д.э.н., профессор, ООО «ЦИАРС», генеральный директор, 143914, Московская обл., г. Балашиха, ул. Центральная, д. 31; Ордена Трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования «Московский технический университет связи и информатики» (МТУСИ), заведующий кафедрой «Прикладной искусственный интеллект», Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Материал поступил в редакцию 12 сентября 2023 года.

Аннотация
Статья посвящена разработке и исследованию алгоритмов управления позиционированием автономного необитаемого подводного аппарата (АНПА) с волнообразным движителем с применением методов сквозного глубокого обучения с подкреплением (end-to-end Reinforcement Learning). Проводится обзор и анализ работ, в которых рассматриваются методы обучения с подкреплением, такие как Actor-only, Critic-only и Actorcritic. Подробно рассматривается метод Deep Deterministic Policy Gradient и его внедрение с использованием глубоких нейронных сетей для обучения агента методом Actorcritic. В архитектуре агента были использованы буфер воспроизведения и так называемые целевые нейронные сети для исключения проблемы корреляции наборов данных, которая вызывает нестабильность обучения. В работе предложена адаптивная архитектура для обучения агента перемещению робота из начальной точки в любую целевую, а также добавлен генератор случайных целевых точек на этапе обучения, чтобы избежать необходимости обучить агента заново при изменении целевой точки. Целью обучения является оптимизация стратегии агента путем оптимизации критики и максимизации функции вознаграждения, которая определяется расстоянием от центра масс робота до целевых точек. Таким образом, вознаграждение, которое получает агент, увеличивается, когда робот приближается к целевой точке, и становится максимальным, когда целевая точка достигается с допустимой ошибкой. Приводятся экспериментальные результаты обучения агента при движении на плоскости с применением нелинейной динамической модели робота. Проведенные исследования подтверждают эффективность применения сквозного алгоритма обучения с подкреплением для решения задачи управления автономным подводным аппаратом. В частности, алгоритм показал свою работоспособность в случаях, когда робот обучался с погрешностью более 0,25 метра. Однако, при достижении погрешности менее 0,25 метра, робот достигал целевой точки, но не останавливался, а начинал совершать колебательные движения в её окрестности.

Ключевые слова
Автономный необитаемый подводный аппарат (АНПА), сквозное глубокое обучение с подкреплением, обучение с подкреплением (Reinforcement Learning), функция вознаграждения, буфер воспроизведения, волнообразное движение.

DOI
10.31776/RTCJ.12105

Индекс УДК
004.89:004.4:629.58

Библиографическое описание
Авс Ахмад. Управление положением подводного робота с волнообразным движителем с использованием сквозного глубокого обучения с подкреплением / Авс Ахмад, А.С. Ющенко, В.И. Соловьев // Робототехника и техническая кибернетика. – Т. 12. - № 1. – Санкт-Петербург : ЦНИИ РТК. – 2024. – С. 36-45. – Текст : непосредственный.

Литература

Research on underwater object recognition based on YOLOv3 / Yang H. [et al.] // Microsystem Technolo-gies. – 2021. – Т. 27. – Pp. 1837-1844. – Text: unmediated.
Jin L. Deep learning for underwater image recognition in small sample size situations / Jin L., Liang H. // OCEANS 2017-Aberdeen. – IEEE, 2017. – Pp. 1-4. – Text: unmediated.
Human-level control through deep reinforcement learning / Mnih V. [et al.] // Nature. – 2015. – Т. 518. – №. 7540. – Pp. 529-533. – Text: unmediated.
Sutton R.S. Reinforcement learning: An introduction / R.S. Sutton, A.G. Barto. – MIT press, 2018. – Text: unmediated.
Niv. Reinforcement learning in the brain // Journal of Mathematical Psychology, vol. 53 (43). – P. 92. – Text: unmediated.
Li Y. Deep reinforcement learning: An overview //arXiv preprint arXiv:1701.07274. – 2017. – Text: electron-ic.
Gaskett C. Reinforcement learning applied to the control of an autonomous underwater vehicle / C. Gaskett, D. Wettergreen, and A. Zelinsky // In Proc. Of the Australian Conference on Robotics and Automation (AUCRA99, 1999, pp. 125–131. – Text: unmediated.
Liu B. Auv path planning under ocean current based on reinforcement learning in electronic chart / Liu B., Lu Z. // 2013 International Conference on Computational and Information Sciences. – IEEE, 2013. – Pp. 1939-1942. – Text: unmediated.
AUV path following controlled by modified Deep Deterministic Policy Gradient / Sun Y. [et al]. // Ocean En-gineering. – 2020. – Т. 210. – P. 107360. – Text: unmediated.
A survey of actor-critic reinforcement learning: Standard and natural policy gradients / Grondman I. [et al.] // IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews). – 2012. – Т. 42. – №. 6. – Pp. 1291-1307. – Text: unmediated.
Proximal policy optimization algorithms / Schulman J. [et al.] // arXiv preprint arXiv:1707.06347. – 2017. – Text: electronic.
Regularly updated deterministic policy gradient algorithm / Han S. [et al.] // Knowledge-Based Systems. – 2021. – Т. 214. – P. 106736. – Text: unmediated.
Deterministic policy gradient algorithms / Silver D. [et al] // International conference on machine learning. – Pmlr, 2014. – Pp. 387-395. – Text: unmediated.
Continuous control with deep reinforcement learning / Bengio Y. [et al.] // Found. Trends® Mach. Learn. – 2009. – Т. 2. – Pp. 1-127. – Text: unmediated.
Исследование подводного робота с волнообразным движителем / Ахмад А. [и др.] // Мехатроника, автоматизация, управление. – 2022. – Т. 23. – №. 11. – С. 607-616. – Текст: непосредственный.
Авс Ахмад. Динамическая модель подводного мобильного робота с волнообразными движителями / Авс Ахмад, А.С. Ющенко // 33-я междунар. науч.-техн. конференц. «Экстремальная робототехника»: труды. – Санкт-Петербург. – 2022. – С. 143. – Текст: непосредственный.