Инновационные подходы к созданию наборов данных с подсказками на арабском языке для LLMs
Большие языковые модели требуют обширных наборов данных с подсказками, сочетающих конкретные запросы пользователей и правильные ответы для целей обучения. Это необходимо для достижения понимания и генерации текста, близкого к человеческому, в качестве ответов на различные вопросы. Однако, в отличие от других языков, в основном арабского, были предприняты огромные усилия для разработки таких наборов данных на английском языке. Этот дисбаланс в доступности данных между языками серьезно ограничивает применимость LLMs в регионах, говорящих на не английском языке, и, следовательно, указывает на критическую потребность в области NLP.
Практические решения и ценность
Исследователи из aiXplain Inc. представили два инновационных метода создания масштабных наборов данных с подсказками на арабском языке для решения этой проблемы. Первый метод включает перевод существующих англоязычных наборов данных на арабский с использованием автоматической системы перевода, за которым следует тщательная оценка качества. Этот метод опирается на передовые технологии машинного перевода и инструменты оценки качества, чтобы гарантировать высокую точность переведенных подсказок. В результате применения этих техник исследователи сохранили около 20% переведенных подсказок, что привело к созданию набора данных из около 20 миллионов высококачественных арабских подсказок.
Второй метод фокусируется на создании новых подсказок непосредственно из существующих арабских наборов данных в области NLP. Этот метод использует инструмент для создания подсказок для 78 общедоступных арабских наборов данных, охватывающих такие задачи, как ответы на вопросы, резюмирование и выявление ненавистной речи. Через этот процесс было создано более 67,4 миллионов подсказок, что значительно расширило ресурсы для обучения арабских LLMs.
Эти новые подсказки были использованы для настройки открытой модели LLM с 7 миллиардами параметров, а именно модели Qwen2 7B. Настроенная модель была протестирована по нескольким бенчмаркам и значительно улучшила обработку арабских подсказок, превзойдя современную модель Llama3 70B с 70 миллиардами параметров. Эти результаты подчеркивают эффективность новых наборов данных с подсказками и демонстрируют, что настройка модели на больших наборах данных приводит к лучшей производительности модели.