Оценка понимания языковыми моделями временных зависимостей в процедурных текстах

 CAT-BENCH: Evaluating Language Models’ Understanding of Temporal Dependencies in Procedural Texts

Оценка понимания языковыми моделями зависимостей во времени в процедурных текстах (CAT-BENCH)

Исследование проведено учеными из Университета Стоуни-Брук, Военно-морской академии США и Университета Техаса в Остине. Они разработали бенчмарк CAT-BENCH для оценки способности передовых языковых моделей предсказывать последовательность шагов в кулинарных рецептах. Исследование показывает, что текущие передовые языковые модели нуждаются в помощи в этой задаче, даже с применением техник обучения на небольшом наборе данных и подсказок на основе объяснений.

Оценка моделей на CAT-BENCH

Различные модели были оценены на CAT-BENCH для их производительности в предсказании зависимостей между шагами. В нулевом режиме GPT-4-turbo и GPT-3.5-turbo показали самые высокие F1-оценки, с GPT-4o, на удивление, показавшим худшую производительность. Добавление объяснений вместе с ответами обычно улучшало производительность модели, особенно заметно повышая F1-оценку GPT-4o. Однако модели были склонны к предсказанию зависимостей, влияя на общее сбалансирование точности и полноты. Человеческая оценка объяснений, сгенерированных моделями, показала различное качество, с более крупными моделями, как правило, превосходящими более маленькие. Модели нуждались в последовательности предсказания порядка шагов, особенно когда добавлялись объяснения. Дальнейший анализ выявил общие ошибки, такие как непонимание многошаговых зависимостей и неспособность выявления причинно-следственных связей между шагами.

Значение и практические применения

CAT-BENCH представляет собой новый бенчмарк для оценки способности языковых моделей распознавать временные зависимости между шагами в кулинарных рецептах. Несмотря на продвижения в передовых моделях, ни одна из них точно не определяет, должен ли один шаг в плане предшествовать или последовать за другим, особенно в распознавании независимостей. Модели также проявляют несогласованность в своих предсказаниях. Подсказка моделям давать ответ, за которым следует объяснение, значительно улучшает их производительность по сравнению с рассуждениями, за которыми следует ответ. Однако человеческая оценка этих объяснений показывает значительное пространство для улучшения понимания моделями зависимостей шагов. Эти результаты подчеркивают текущие ограничения языковых моделей для приложений, основанных на планировании.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте CAT-BENCH: Evaluating Language Models’ Understanding of Temporal Dependencies in Procedural Texts.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram.

Попробуйте ИИ ассистент в продажах на Flycode.ru. Этот ИИ ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от Flycode.ru.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект