“`html
Whiteboard-of-Thought (WoT) Prompting: простой подход ИИ для улучшения визуальных способностей рассуждения MLLMs в различных модальностях
Большие языковые модели (LLMs) изменили обработку естественного языка (NLP), показав эффективность увеличения количества параметров и обучающих данных для различных задач рассуждения. Однако LLMs плохо справляются с задачами, требующими визуального и пространственного мышления.
Практические решения:
Для устранения этих недостатков исследователи из Университета Колумбии предложили Whiteboard-of-Thought (WoT) prompting, метод, позволяющий MLLMs создавать изображения и визуально обрабатывать их для более точного ответа на запросы. Этот подход показал лучшие результаты на задачах, требующих визуального и пространственного понимания.
Исследования показали, что LLMs, использующие только текст, лучше всего справляются с задачами в 2D-сетках, но могут плохо справляться с другими типами геометрий. WoT же показывает стабильные результаты в различных геометриях, устраняя зависимость от текстовых знаний, специфичных для 2D-сеток.
WoT предоставляет MLLMs возможность создавать изображения и визуально обрабатывать их для ответа на запросы. Этот метод позволяет моделям лучше понимать задачи, требующие визуального и пространственного мышления, что ранее было сложно для существующих моделей, основанных на текстовом рассуждении.
Заключение:
WoT представляет собой метод, позволяющий MLLMs визуально рассуждать в различных модальностях. Этот подход показывает потенциал в решении задач, требующих визуального и пространственного понимания, которые ранее были сложны для существующих моделей, основанных на текстовом рассуждении.
“`