KGLens: Новый метод искусственного интеллекта для визуализации и оценки фактических знаний в LLMs, разработанный исследователями Apple

 Apple Researchers Present KGLens: A Novel AI Method Tailored for Visualizing and Evaluating the Factual Knowledge Embedded in LLMs

“`html

Оценка знаний в LLM с помощью KGLens

Большие языковые модели (LLM) привлекли значительное внимание своей универсальностью, но их достоверность остается критической проблемой. Исследования показали, что LLM могут производить недостоверную, выдуманную или устаревшую информацию, подрывая надежность. Текущие методы оценки, такие как факт-чекинг и факт-QA, сталкиваются с несколькими проблемами. Факт-чекингу трудно оценить достоверность созданного контента, а факт-QA сталкивается с трудностями в масштабировании данных из-за дорогостоящих процессов аннотации. Оба подхода также сталкиваются с риском загрязнения данных из предварительных корпусов веб-краулеров. Кроме того, LLM часто неоднозначно реагируют на один и тот же факт, представленный в различных формах, что требует адаптации существующих наборов данных для оценки.

Преимущества использования графов знаний

Существующие попытки оценить знания LLM в основном используют конкретные наборы данных, но сталкиваются с проблемами, такими как утечка данных, статический контент и ограниченные метрики. Графы знаний (KG) предлагают преимущества в настройке, развивающихся знаниях и уменьшении утечки тестовых наборов. Методы, такие как LAMA и LPAQA, используют графы знаний для оценки, но сталкиваются с неестественными форматами вопросов и непрактичностью для больших графов знаний. KaRR преодолевает некоторые проблемы, но остается неэффективным для больших графов и лишен обобщаемости. Текущие подходы сосредоточены на точности, не уделяя внимания надежности, не решая проблему неоднозначных ответов LLM на один и тот же факт. Также не существует работ, визуализирующих знания LLM с использованием графов знаний, что представляет возможность для улучшения.

Инновационный метод оценки знаний LLM

Исследователи из Apple представили KGLENS, инновационную систему оценки знаний, разработанную для измерения соответствия знаний между графами знаний и LLM и выявления слепых пятен в знаниях LLM. Система использует метод, вдохновленный выборочным распределением Томпсона, с параметризованным графом знаний (PKG) для эффективной оценки LLM. KGLENS представляет собой генератор вопросов, основанный на графе, который преобразует графы знаний в естественный язык с использованием GPT-4, создавая два типа вопросов (факт-чекинг и факт-QA) для уменьшения неоднозначности ответов. Человеческая оценка показывает, что 97,7% сгенерированных вопросов осмысленны для аннотаторов.

KGLENS использует уникальный подход для эффективной оценки знаний LLM с использованием PKG и метода, вдохновленного выборочным распределением Томпсона. Система инициализирует PKG, где каждое ребро дополняется бета-распределением, указывающим на потенциальные недостатки LLM на этом ребре. Затем происходит выборка ребер на основе их вероятности, генерация вопросов из этих ребер и проверка LLM через задачу вопросно-ответной системы. PKG обновляется на основе результатов, и этот процесс повторяется до сходимости. Также система представляет генератор вопросов, основанный на графе, который преобразует ребра графов знаний в вопросы естественного языка с использованием GPT-4. Создаются два типа вопросов: вопросы типа “да/нет” для оценки и вопросы типа “кто/что/где/когда/почему” для генерации, с типом вопроса, контролируемым структурой графа. Алиасы сущностей включены для уменьшения неоднозначности.

Для проверки ответов KGLENS указывает LLM на генерацию конкретных форматов ответов и использует GPT-4 для проверки правильности ответов на вопросы типа “кто/что/где/когда/почему”. Эффективность системы оценивается с помощью различных методов выборки, демонстрируя ее эффективность в выявлении слепых пятен в знаниях LLM по различным темам и отношениям.

Оценка KGLENS различных LLM показывает, что семейство GPT-4 постоянно превосходит другие модели. GPT-4, GPT-4o и GPT-4-turbo показывают сопоставимую производительность, при этом GPT-4o более осторожен в отношении личной информации. Существует значительное различие между GPT-3.5-turbo и GPT-4, причем GPT-3.5-turbo иногда производит худшие результаты по сравнению с устаревшими LLM из-за своего консервативного подхода. Устаревшие модели, такие как Babbage-002 и Davinci-002, показывают лишь незначительное улучшение по сравнению с случайным угадыванием, что подчеркивает прогресс в недавних LLM. Оценка предоставляет понимание различных типов ошибок и поведения моделей, демонстрируя разнообразные возможности LLM в обработке различных областей знаний и уровней сложности.

KGLENS представляет эффективный метод оценки фактических знаний в LLM с использованием метода, вдохновленного выборочным распределением Томпсона, с параметризованными графами знаний. Система превосходит существующие методы в выявлении слепых пятен в знаниях и демонстрирует адаптивность в различных областях. Человеческая оценка подтверждает ее эффективность, достигая 95,7% точности. KGLENS и его оценка графов знаний будут доступны исследовательскому сообществу, способствуя сотрудничеству. Для бизнеса это инструмент облегчает разработку более надежных систем ИИ, улучшая пользовательские впечатления и знания модели. KGLENS представляет собой значительный прогресс в создании более точных и надежных приложений ИИ.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Современные решения для оценки позы человека в бизнесе

    Бизнес-решения: Продвинутая оценка позы человека Введение в оценку позы человека Оценка позы человека — это инновационная технология, которая преобразует визуальную информацию в практические данные о движении человека. Используя такие модели, как MediaPipe, компании…

  • RWKV-7: Эффективное Моделирование Последовательностей для Бизнеса

    Введение в RWKV-7 Модель RWKV-7 представляет собой значительное достижение в области моделирования последовательностей благодаря инновационной архитектуре рекуррентной нейронной сети (RNN). Это более эффективная альтернатива традиционным авторегрессионным трансформерам, особенно для задач, требующих обработки длинных…

  • Qwen2.5-VL-32B-Instruct: Прорыв в моделях визуального языка

    Практические бизнес-решения с использованием Qwen2.5-VL-32B-Instruct Модель Qwen2.5-VL-32B-Instruct предлагает множество возможностей для улучшения бизнес-процессов и реальной жизни. Вот несколько шагов для ее внедрения: 1. Определите возможности автоматизации Анализируйте текущие процессы, чтобы найти задачи, где…

  • Извлечение Структурированных Данных с Помощью ИИ

    Практические бизнес-решения на основе извлечения структурированных данных с помощью ИИ Введение Использование ИИ для извлечения структурированных данных может значительно улучшить бизнес-процессы и повысить эффективность работы. Данная инструкция поможет вам внедрить ИИ-технологии, такие как…

  • Космос-Reason1: Новые горизонты в физическом ИИ

    Введение в Cosmos-Reason1: Прорыв в физическом ИИ Недавние исследования ИИ от NVIDIA представляют Cosmos-Reason1 — мультимодальную модель, предназначенную для улучшения способности ИИ рассуждать в физических средах. Это достижение критически важно для таких приложений,…

  • TokenSet: Революция в семантически осознанном визуальном представлении

    Введение TokenSet представляет собой инновационный подход к визуальной генерации, который может значительно улучшить бизнес-процессы. Этот фреймворк помогает оптимально представлять изображения, учитывая семантическую сложность различных областей. Давайте рассмотрим, как его использование может повысить бизнес-результаты…

  • Лира: Эффективная Архитектура для Моделирования Биологических Последовательностей

    Введение Lyra – это новая архитектура, которая предлагает эффективный подход к моделированию биологических последовательностей, позволяя улучшить бизнес-процессы в области биотехнологий и медицины. Проблемы в текущих моделях Существующие модели требуют значительных вычислительных ресурсов и…

  • СуперBPE: Новые Горизонты Токенизации для Языковых Моделей

    Введение в проблемы токенизации Языковые модели сталкиваются с серьезными проблемами при обработке текстовых данных из-за ограничений традиционных методов токенизации. Текущие токенизаторы делят текст на токены словарного запаса, которые не могут пересекаться с пробелами,…

  • TXAGENT: Искусственный интеллект для точной медицины и рекомендаций по лечению

    Введение в TXAGENT: Революция в прецизионной терапии с помощью ИИ Прецизионная терапия становится все более важной в здравоохранении, так как она настраивает лечение в соответствии с индивидуальными профилями пациентов. Это позволяет оптимизировать результаты…

  • TULIP: Новый подход к обучению для улучшения понимания визуальных и языковых данных

    TULIP: Новая Эра в Понимании Языка и Визуальных Изображений Введение в Контрастное Обучение Недавние достижения в искусственном интеллекте значительно улучшили связь между визуальным контентом и языком. Модели контрастного обучения, связывающие изображения и текст…

  • Революция в локализации кода: решения на основе графов от LocAgent

    Преобразование обслуживания программного обеспечения с помощью LocAgent Введение Обслуживание программного обеспечения является важной частью жизненного цикла разработки, где разработчики регулярно исправляют ошибки, добавляют новые функции и улучшают производительность. Ключевым аспектом этого процесса является…

  • LocAgent: Революция в локализации кода с помощью графового ИИ для обслуживания ПО

    Улучшение обслуживания программного обеспечения с помощью ИИ: случай LocAgent Введение в обслуживание программного обеспечения Обслуживание программного обеспечения — это важный этап в жизненном цикле разработки программного обеспечения. На этом этапе разработчики возвращаются к…

  • Инновации в обработке языка с помощью ИИ: новые возможности для бизнеса

    Преобразование обработки языка с помощью ИИ Понимание проблем обработки языка Обработка языка – это сложная задача, требующая учета многомерности и контекста. Исследования в области психолингвистики сосредоточены на определении символических характеристик различных языковых областей.…

  • Надежный ИИ для Обслуживания Клиентов: Решения и Принципы

    Улучшение Надежности ИИ в Обслуживании Клиентов Проблема: Непостоянная Производительность ИИ в Обслуживании Клиентов Большие языковые модели (LLMs) показывают многообещающие результаты в роли обслуживания клиентов, но их надежность как независимых агентов вызывает серьезные опасения.…

  • Создание разговорного исследовательского помощника с использованием технологии RAG

    Создание Разговорного Исследовательского Ассистента Введение Технология Retrieval-Augmented Generation (RAG) улучшает традиционные языковые модели, интегрируя системы поиска информации. Это позволяет создавать разговорных исследовательских ассистентов, которые точно отвечают на запросы, основанные на конкретных базах знаний.…

  • Беспристрастное обучение с подкреплением для улучшения математического мышления в больших языковых моделях

    Практические бизнес-решения Организации, стремящиеся использовать ИИ, могут реализовать следующие стратегии: 1. Определите возможности автоматизации Изучите процессы, которые можно автоматизировать для повышения эффективности и снижения затрат. Это может включать обработку данных, ответы на часто…

  • Fin-R1: Прорыв в финансовом ИИ

    Введение Искусственный интеллект (ИИ) в финансовом секторе продолжает развиваться, предлагая новые решения для улучшения бизнес-процессов. Система Fin-R1, специализированная модель ИИ, способна решить многие проблемы, связанные с финансовым анализом и принятием решений. Проблемы в…

  • SWEET-RL: Прорыв в обучении многоходовых языковых агентов

    Практические бизнес-решения с использованием SWEET-RL Введение в большие языковые модели (LLMs) Большие языковые модели (LLMs) становятся мощными автономными агентами, способными выполнять сложные задачи. Их применение в бизнесе может значительно повысить эффективность процессов. Решение…