На веб-странице с множеством форм сориентироваться не проще, чем на шахматной доске. Но специалисты Google AI еще более усложнили задачу: научиться покупать билеты нужно без примеров из реальной жизни и подсказок наставника.
В новой статье «Learning To Navigate The Web» команда Google AI описала, как нейронная сеть училась понимать структуру веб-страниц и заполнять формы на сайтах бронирования авиабилетов. Для этого они применили тот же подход обучения с подкреплением, какой уже принес победу ИИ AlphaZero. Алгоритм разрабатывал стратегии преодоления каждого этапа на пути к достижению конечной цели, получая награду за правильный выбор.
Число возможных комбинаций состояний и действий при бронировании билетов могут достигать десятков миллионов, пишет ZDNet.
При этом нейросеть обучалась, не получая примеров того, как человек заполняет онлайн-формы.
Разработчики применили так называемое «поверхностное кодирование» (shallow encoding) для того, чтобы нейросеть лучше понимала структуру веб-страницы. Без этих приемов ИИ не смог бы добиться успеха и вел бы себя, как скучающий веб-серфер.
Суть задачи, конечно, заключалась не в том, чтобы научить алгоритм заказывать билеты. Заполнение форм — отличный пример решения проблемы с многочисленными переменными при отсутствии помощи со стороны человека или другого «супервайзера». В итоге у разработчиков появилось две новых архитектуры нейросети, взаимодействующие друг с другом.
Разработчики планируют в ближайшем будущем протестировать нейросеть в усложненных условиях с большим количеством шагов и вариантов выбора.