Новые модели встраивания текста для поиска и RAG: Embedić выпущен.

 Embedić Released: A Suite of Serbian Text Embedding Models Optimized for Information Retrieval and RAG


Embedić: Новые Возможности для Обработки Сербского Языка

Практические Решения и Ценность

Novak Zivanic внес значительный вклад в область обработки естественного языка с выпуском Embedić – набора моделей встраивания текста на сербском языке. Эти модели специально разработаны для задач информационного поиска и генерации с использованием метода Retrieval-Augmented Generation (RAG). Наименьшая модель в наборе достигла выдающегося результата, превзойдя предыдущие показатели производительности, используя в 5 раз меньше параметров. Этот прорыв демонстрирует эффективность моделей Embedić в обработке сербского языка.

Модели Embedić настраиваются на основе моделей multilingual-e5 и представлены в трех размерах (small, base и large).

Набор Embedić проявляет впечатляющую универсальность в языковых возможностях. Хотя они специализированы на сербский язык, включая как кириллицу, так и латиницу, эти модели также обладают кросс-языковыми функциями и понимают английский язык. Эта функция позволяет пользователям встраивать документы на английском, сербском или их комбинации. Используя фреймворк sentence-transformers, Embedić отображает предложения и абзацы в 786-мерное плотное векторное пространство. Это представление делает модели особенно полезными для задач, таких как кластеризация и семантический поиск, улучшая их практическое применение в различных языковых контекстах.

При использовании Embedić важно учитывать некоторые важные рекомендации по использованию. Использование “ošišana latinica” (упрощенной латиницы без диакритических знаков) может значительно снизить качество поиска, поэтому рекомендуется использовать правильную сербскую орфографию. Кроме того, применение заглавных букв для именованных сущностей может значительно улучшить результаты поиска.

Набор Embedić предлагает три размера моделей: small, base и large, все они настроены на основе моделей multilingual-e5. Процесс обучения, проведенный на одном графическом процессоре 4070ti Super GPU, включает три этапа: дистилляцию, обучение на парах (запрос, текст) и окончательную настройку с триплетами.

Модели Embedić прошли тщательную оценку по трем ключевым задачам: информационный поиск, сходство предложений и майнинг битекстов. Для обеспечения всесторонней оценки были затрачены значительные усилия и ресурсы на создание подходящих наборов данных на сербском языке. Разработчик лично перевел набор данных для оценки межъязыкового сходства STS17, продемонстрировав приверженность точности. Кроме того, было сделано значительное вложение в Google Translation API в размере $6,000 для перевода четырех наборов данных для оценки информационного поиска на сербский язык. Такой тщательный подход к подготовке наборов данных подчеркивает основательность процесса оценки и потенциальную эффективность моделей в задачах на сербском языке.

Выпуск Embedić является значительным прорывом в обработке сербского языка. Разработанный Новаком Зиваничем, этот набор моделей встраивания текста предлагает передовую производительность для задач информационного поиска и RAG, причем наименьшая модель превосходит предыдущие показатели, используя значительно меньше параметров. Модели, доступные в трех размерах, настроены на основе multilingual-e5 и обладают кросс-языковыми возможностями, понимая как сербский (кириллицу и латиницу), так и английский язык.

Embedić использует фреймворк sentence-transformers, отображая текст в 786-мерное векторное пространство, что делает его идеальным для задач кластеризации и семантического поиска. Процесс разработки включал тщательное обучение и оценку, включая личные усилия по переводу и значительные инвестиции в создание обширных наборов данных на сербском языке.



Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект