Мультимодальные большие языковые модели (MLLMs)
Сегодня мультимодальные большие языковые модели (MLLMs) – это продвинутые системы, которые обрабатывают и понимают различные формы ввода, такие как текст и изображения. Они стремятся решать задачи и генерировать точные ответы. Однако MLLMs часто сталкиваются с трудностями при решении сложных задач, так как не могут разбивать проблемы на более мелкие шаги и предоставляют прямые ответы без четкого промежуточного мышления. Это ограничивает их эффективность в решении сложных задач.
Проблемы традиционных методов
Традиционные методы мышления в MLLMs имеют множество недостатков. Например, методы на основе подсказок, такие как Chain-of-Thought, копируют человеческое мышление, но не справляются с трудными задачами. Методы на основе деревьев или графов пытаются находить пути рассуждений, но не всегда надежны. Методы на основе обучения, такие как Monte Carlo Tree Search (MCTS), медленные и не способствуют глубокому мышлению. Большинство MLLMs полагаются на “прямое предсказание”, что приводит к коротким ответам без четких шагов.
Решение: CoMCTS
Чтобы решить эти проблемы, команда исследователей из Наньянгского технологического университета, Университета Цинхуа, Baidu и Университета Сунь Ятсена предложила CoMCTS – фреймворк для улучшения поиска путей рассуждений в задачах деревоискательства. Вместо использования одной модели, он объединяет несколько предобученных моделей для расширения и оценки кандидатных путей. Это позволяет улучшить производительность и снизить количество ошибок в процессе рассуждения.
Ключевые шаги CoMCTS
CoMCTS состоит из четырех основных шагов:
- Расширение: несколько моделей одновременно ищут разные решения, увеличивая разнообразие возможных ответов.
- Симуляция: удаляются неверные или менее эффективные пути, упрощая поиск.
- Обратное распространение: модели учатся на своих ошибках и используют эти знания для улучшения предсказаний.
- Выбор: используется статистический метод для выбора наилучшего действия.
Данные Mulberry-260K
Исследователи создали набор данных Mulberry-260K, который включает 260 тысяч мультимодальных вопросов, сочетая текстовые инструкции и изображения из различных областей. Этот набор данных был построен с использованием CoMCTS, и обучение ограничивалось 15 тысячами образцов, чтобы избежать избытка. Задачи рассуждения требовали в среднем 7.5 шагов.
Результаты
Результаты показали значительное улучшение производительности по сравнению с базовыми моделями. CoMCTS улучшил свою производительность на 63.8%. Это подтверждает, что Mulberry-260K и CoMCTS значительно повышают точность и гибкость рассуждений.
Заключение
CoMCTS – это подход, который улучшает рассуждение в MLLMs, внедряя коллективное обучение в методы деревоискательства. Этот фреймворк повысил эффективность поиска пути рассуждения и может служить основой для дальнейших исследований и разработки более эффективных моделей.
Как использовать ИИ в вашей компании
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), следуйте этим шагам:
- Проанализируйте, как ИИ может изменить вашу работу.
- Определите, где возможно применение автоматизации.
- Установите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
- Выберите подходящее решение из множества доступных вариантов ИИ.
- Внедряйте ИИ постепенно, начиная с небольшого проекта.
- На основе полученных данных расширяйте автоматизацию.
Получите помощь
Если вам нужны советы по внедрению ИИ, пишите нам.
Попробуйте ИИ-ассистента в продажах, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.
Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.