Новые модели Reader-LM для преобразования HTML в Markdown: многоязычные, с длинным контекстом и высокоэффективные

 Jina AI Released Reader-LM-0.5B and Reader-LM-1.5B: Revolutionizing HTML-to-Markdown Conversion with Multilingual, Long-Context, and Highly Efficient Small Language Models for Web Data Processing

Jina AI выпустила Reader-LM-0.5B и Reader-LM-1.5B: Революционные модели малых языковых моделей для преобразования HTML в Markdown

Выпуск Reader-LM-0.5B и Reader-LM-1.5B Jina AI является значительным событием в технологии малых языковых моделей (SLM). Эти модели разработаны для решения уникальной и конкретной задачи: преобразование сырого, шумного HTML с открытого веб-сайта в чистый формат markdown. Хотя эта задача кажется простой, она представляет собой сложные вызовы, особенно в обработке большого количества шума в современном веб-контенте, такого как заголовки, подвалы и боковые панели. Серия Reader-LM нацелена на эффективное решение этой проблемы, с упором на экономичность и производительность.

Фон и цель

В апреле 2024 года Jina AI представила Jina Reader, API, который преобразует любой URL в markdown, подходящий для больших языковых моделей (LLM). Этот API использует инструменты, такие как пакет Readability от Mozilla, для извлечения основного содержимого веб-страницы, а затем регулярные выражения и библиотеку Turndown для преобразования очищенного HTML в markdown. Однако этот метод столкнулся с проблемами, такими как неправильная фильтрация контента и трудности в преобразовании сложных структур HTML. Получив обратную связь от пользователей, Jina AI поняла, что патчинг существующего конвейера с помощью дополнительных регулярных выражений и эвристик не является устойчивым решением.

Чтобы преодолеть эти ограничения, Jina AI задала важный вопрос: может ли эта проблема быть решена end-to-end с использованием языковой модели? Вместо ручных правил, языковая модель может более эффективно обрабатывать задачу преобразования HTML в markdown, особенно с менее чем миллиардом параметров, что делает ее выполнимой для работы на краю.

Введение моделей Reader-LM

Jina AI выпустила две малые языковые модели: Reader-LM-0.5B и Reader-LM-1.5B. Эти модели обучены специально для преобразования сырого HTML в markdown, и обе поддерживают мультиязычность и контекст длиной до 256 токенов. Эта способность обрабатывать большие контексты критична, поскольку содержимое HTML современных веб-сайтов часто содержит больше шума, чем когда-либо, с встроенным CSS, JavaScript и другими элементами, значительно увеличивающими количество токенов.

В то время как большие языковые модели известны своими высокими вычислительными требованиями, малые языковые модели, такие как Reader-LM, разработаны для обеспечения эффективной производительности без дорогостоящей инфраструктуры. Reader-LM-0.5B и Reader-LM-1.5B превосходят многие более крупные модели в конкретной задаче преобразования HTML в markdown, при этом имея лишь долю их размера.

Архитектура и спецификации

Модели Reader-LM разработаны для обработки входных данных с длинным контекстом и выполнения выборочного копирования из HTML в markdown. Эта задача более проста, чем типичные функции LLM, такие как генерация текста или написание кода. Это поведение выборочного копирования в первую очередь направлено на идентификацию соответствующего контента, пропуская ненужные элементы, такие как боковые панели и заголовки, и форматируя оставшийся контент в синтаксисе markdown.

Спецификации моделей

Reader-LM-0.5B: С 494 миллионами параметров, данная модель включает 24 слоя, 896 скрытых размеров и 14 запросов. Она компактна, но способна эффективно обрабатывать задачу выборочного копирования.

Reader-LM-1.5B: Эта более крупная модель имеет 1,54 миллиарда параметров, 28 слоев, 1536 скрытых размеров и 12 запросов. Она проявляет себя лучше, особенно при работе с более сложными структурами HTML.

Обе модели поддерживают длину контекста до 256 токенов, что критично для обработки часто длинного и шумного HTML-контента, найденного в сети. Их способность обрабатывать мультиязычный контент делает их универсальными инструментами для глобальных приложений.

Производительность и бенчмаркинг

Производительность Reader-LM-0.5B и Reader-LM-1.5B была тщательно оценена по сравнению с несколькими большими языковыми моделями, включая GPT-4o, Gemini-1.5-Flash, LLaMA-3.1-70B и Qwen2-7BInstruct. Модели были протестированы с использованием метрик, таких как ROUGE-L (для задач суммаризации и вопросно-ответной системы), Token Error Rate (TER, который измеряет уровень галлюцинаций контента) и Word Error Rate (WER, который оценивает несоответствия между сгенерированным markdown и оригинальным HTML).

В этих оценках модели Reader-LM превзошли многие более крупные модели в терминах генерации чистого, точного markdown из HTML. Например, Reader-LM-1.5B достигла оценки ROUGE-L 0,72, WER 1,87 и TER 0,19, значительно лучше, чем GPT-4o и другие протестированные модели. Reader-LM-0.5B, хотя и меньше, также показала конкурентоспособные результаты, особенно в задаче сохранения структуры, что важно для преобразования HTML в markdown.

Обучение и разработка

Для обучения моделей Reader-LM требовалось подготовить высококачественные пары данных с сырым HTML и соответствующим markdown. Jina AI сгенерировала эти данные, используя свой существующий API Jina Reader, дополненный синтетическим HTML, сгенерированным GPT-4o для обучения. Итоговый обучающий набор данных содержал примерно 2,5 миллиарда токенов.

Модели обучались в два этапа:

Краткое и простое HTML: На этом этапе использовались до 32 тысяч токенов и 1,5 миллиарда обучающих токенов.

Длинное и сложное HTML: На этом этапе последовательности увеличились до 128 тысяч токенов с 1,2 миллиарда обучающих токенов. Ключевым новшеством на этом этапе было использование механизма “зигзаг-кольцевого внимания”, что улучшило обработку длинных контекстов.

Несмотря на сложность преобразования HTML в markdown, модели были оптимизированы для эффективной обработки этой задачи без излишних вычислительных нагрузок. Они используют такие техники, как контрастный поиск, чтобы предотвратить дегенерацию токенов и повторяющиеся циклы во время генерации markdown.

Прикладные возможности

Reader-LM разработан для практического использования как в индивидуальных, так и в корпоративных средах. Модели могут быть легко протестированы с помощью Google Colab, а производственные среды могут использовать платформы, такие как Azure и AWS, где модели скоро будут доступны. Reader-LM лицензирован под CC BY-NC 4.0, с возможностью коммерческого использования для компаний, ищущих решения для работы на собственных серверах.

Модели идеально подходят для автоматизации извлечения и очистки данных с открытого веба в производственных средах. Преобразуя сырой HTML в чистый markdown, Reader-LM обеспечивает эффективную обработку данных, что упрощает для последующих LLM суммирование, рассуждение и получение инсайтов из веб-контента. Кроме того, их мультиязычные возможности расширяют их применимость в различных отраслях и регионах.

Заключение

Выпуск Reader-LM-0.5B и Reader-LM-1.5B представляет собой прорыв в технологии малых языковых моделей, специально разработанных для преобразования HTML в markdown. Эти модели решают критическую потребность в эффективном, экономичном извлечении данных из шумного и часто ошеломляющего веб-контента, характерного для современного интернета. С их компактным размером, поддержкой длинного контекста и мультиязычными возможностями модели Reader-LM предлагают мощный инструмент для разработчиков и предприятий, стремящихся оптимизировать свои рабочие процессы.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Запуск BingoGuard: Новый уровень модерации контента от Salesforce AI

    Обзор BingoGuard Salesforce AI представила BingoGuard, инновационную систему модерации контента, использующую большие языковые модели (LLMs). Эта система решает проблемы традиционной модерации, обеспечивая более точную классификацию контента. Ключевые особенности BingoGuard Гранулярная классификация: BingoGuard классифицирует…

  • Улучшение принятия решений в Гомоку с использованием ИИ и обучения с подкреплением

    Улучшение стратегического принятия решений с помощью ИИ в Гомоку Введение Искусственный интеллект (ИИ) может значительно улучшить бизнес-процессы, используя технологии, подобные большим языковым моделям (LLM). Эти модели способны анализировать данные и генерировать идеи, что…

  • PaperBench: Новый стандарт оценки ИИ в исследованиях машинного обучения

    Введение Быстрые достижения в области искусственного интеллекта (ИИ) подчеркивают необходимость эффективных методов оценки. Использование PaperBench может значительно улучшить способность вашей компании использовать ИИ для автоматизации исследовательских задач. Что такое PaperBench? PaperBench — это…

  • Снижение галлюцинаций в больших моделях визуально-языковых систем: практические бизнес-решения

    Снижение галлюцинаций в больших моделях визуального и языкового понимания Понимание проблемы галлюцинаций в LVLM Большие модели визуального и языкового понимания (LVLM) являются мощными инструментами, которые объединяют визуальные и текстовые данные для выполнения задач,…

  • Запуск передовой многомодальной модели встраивания для визуального извлечения документов

    Внедрение многомодальной модели Nomic Модель Nomic Embed Multimodal предлагает компании новые возможности для улучшения обработки документов. Она позволяет эффективно извлекать информацию как из текста, так и из изображений, что значительно упрощает рабочие процессы.…

  • Многоходовое Внимание: Революция в Понимании Языковых Моделей

    Введение в механизмы внимания в языковых моделях Языковые модели (LLMs) активно используют механизмы внимания для эффективного извлечения контекстной информации. Однако традиционные методы внимания ограничены однотокеновым вниманием, что может затруднять понимание сложных языковых зависимостей.…

  • Amazon Nova Act: Революция в автоматизации веб-задач

    Введение в Amazon Nova Act Amazon представил революционную модель ИИ под названием Nova Act, предназначенную для автоматизации различных веб-задач. Этот ИИ-агент может автоматизировать процессы, такие как заполнение форм, навигация по интерфейсу и управление…

  • Руководство для начинающих по терминалу и командной строке: основные команды и советы

    Практические бизнес-решения с использованием Terminal/Command Prompt Введение Terminal и Command Prompt – это мощные инструменты для взаимодействия с компьютерами, которые могут значительно повысить производительность и эффективность в бизнесе. Преимущества использования Terminal/Command Prompt Эффективная…

  • Гибридная система вознаграждений ByteDance: улучшение RLHF с помощью RTV и GenRM

    Введение в Гибридную Систему Наград в ИИ Недавнее исследование от ByteDance представляет значительное достижение в области искусственного интеллекта через гибридную систему наград. Эта система объединяет Проверяющие Задачи Размышления (RTV) и Генеративную Модель Наград…

  • Революционная платформа AI для интеграции рассуждений и поиска

    Введение в ReSearch: Прогрессивная AI-структура Обзор ReSearch ReSearch представляет собой продвинутую структуру, которая обучает большие языковые модели (LLM) комбинировать рассуждения с поиском с помощью обучения с подкреплением, устраняя необходимость в контролируемых данных для…

  • Использование Git и Git Bash: Руководство для бизнеса

    Бизнес-преобразование с помощью Git и искусственного интеллекта Введение Использование Git и Git Bash может значительно улучшить управление проектами. Эти инструменты позволяют командам отслеживать изменения кода и эффективно сотрудничать, что значительно повышает производительность бизнеса.…

  • Создание инструмента для анализа рентгеновских снимков с открытым исходным кодом

    Создание инструмента для оценки рентгеновских снимков с открытым исходным кодом Практические бизнес-решения Создание прототипа инструмента для оценки рентгеновских снимков может значительно улучшить процессы диагностики и повысить качество обслуживания клиентов в медицинских учреждениях. Использование…

  • Увеличение разнообразия креативного письма с помощью DPO и ORPO в ИИ моделях

    Улучшение креативного письма с помощью ИИ: Практические решения для бизнеса Понимание проблемы креативного письма в ИИ Креативное письмо требует разнообразия и воображения, что представляет собой уникальную задачу для систем искусственного интеллекта (ИИ). В…

  • Оценка юридических ответов на соответствие GDPR с помощью платформы Atla

    Оценка юридических ответов для соблюдения GDPR с помощью платформы Atla Обзор Данный гид описывает практический подход к оценке качества юридических ответов, сгенерированных языковыми моделями, с использованием платформы Atla и Python SDK. Наша цель…

  • VideoMind: Прорыв в понимании видео с помощью ИИ

    Видеоминд: Применение AI для понимания видео Видеоминд представляет собой значительное достижение в области искусственного интеллекта, особенно в понимании видео. Этот инновационный подход решает уникальные задачи анализа видеоконтента. Понимание задач видеоконтента Видеоматериалы более сложны…

  • Hostinger Horizons: Создавайте веб-приложения без кода с помощью ИИ

    Практические бизнес-решения с использованием Hostinger Horizons Hostinger Horizons предлагает уникальные возможности для бизнеса благодаря своей платформе без кода, которая упрощает создание веб-приложений. Вот как это может улучшить бизнес и реальную жизнь: Преимущества использования…

  • Hunyuan-T1: Революция в Искусственном Интеллекте для Бизнеса

    Практические бизнес-решения Преобразование рабочих процессов Искусственный интеллект может значительно улучшить бизнес-операции. Вот практические шаги, которые стоит рассмотреть: 1. Определите возможности автоматизации Ищите процессы, которые можно автоматизировать для повышения эффективности. 2. Улучшите взаимодействие с…

  • FFN Fusion от NVIDIA: Революция в эффективности больших языковых моделей

    Введение в большие языковые модели Большие языковые модели (LLMs) становятся все более важными в различных секторах, обеспечивая работу приложений, таких как генерация естественного языка и разговорные агенты. Однако с увеличением размера и сложности…