Набор данных FinTextQA для ответов на длинные вопросы в финансовой сфере

 FinTextQA: A Long-Form Question Answering LFQA Dataset Specifically Designed for the Financial Domain

FinTextQA: Новый набор данных для долгоформатного вопросно-ответного моделирования в финансовой сфере

Расширение систем вопросов и ответов (QA) на основе искусственного интеллекта (ИИ) обусловлено растущим спросом на анализ финансовых данных и управление ими. Эти технологии помогают улучшить обслуживание клиентов, обеспечивают управление рисками и предоставляют индивидуализированные рекомендации по акциям. Точные и полезные ответы на финансовые данные требуют глубокого понимания финансовой области из-за сложности данных, специфических терминов и понятий, неопределенности рынка и процессов принятия решений.

Новый набор данных для финансовой сферы

Несмотря на наличие нескольких наборов данных для долгоформатного вопросно-ответного моделирования (LFQA) в общедоступной области, таких как ELI5, WikiHowQA и WebCPM, ни один из них не адаптирован под финансовый сектор. Этот пробел на рынке значителен, поскольку сложные вопросы в открытой области требуют обширных развернутых ответов и соответствующего извлечения документов.

В свете этих трудностей исследователи из HSBC Lab, Гонконгского университета науки и технологий (Гуанчжоу) и Гарвардского университета представляют FinTextQA – новый набор данных для тестирования моделей QA по вопросам общих финансовых, регуляторных или политических вопросов. Этот набор данных состоит из LFQA, взятых из учебников в данной области, а также веб-сайтов правительственных агентств. Он включает 1 262 вопроса и ответа, а также контекст документов, которые составляют FinTextQA. Подобранные из пяти этапов человеческой проверки, он включает шесть категорий вопросов с средней длиной текста 19,7 тыс. слов. Внедряя финансовые правила и регуляции в LFQA, этот набор данных ставит перед моделями более сложное содержание и представляет собой прорыв в данной области.

Использование FinTextQA и будущие перспективы

Команда представила набор данных и провела оценку моделей последнего поколения (SOTA) с использованием FinTextQA для установления стандартов будущих исследований. Многие существующие системы LFQA зависят от предварительно обученных языковых моделей, таких как GPT-3.5-turbo, LLaMA2, Baichuan2 и др. Тем не менее, эти модели не всегда способны отвечать на сложные финансовые запросы или предоставлять развернутые ответы.

Исследователи подчеркивают, что FinTextQA имеет меньше пар вопрос-ответ, несмотря на его профессиональную кураторскую работу и высокое качество по сравнению с более крупными наборами данных, созданными с использованием ИИ. Из-за этого ограничения модели, обученные на нем, могут не быть распространены на более общие реальные сценарии.

Тем не менее, команда считает, что это работа является значительным шагом вперед в улучшении понимания финансовых концепций и поддержки за счет представления первого LFQA финансового набора данных и проведения обширных испытаний на нем.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект