Новые модели Reader-LM для преобразования HTML в Markdown: многоязычные, с длинным контекстом и высокоэффективные

 Jina AI Released Reader-LM-0.5B and Reader-LM-1.5B: Revolutionizing HTML-to-Markdown Conversion with Multilingual, Long-Context, and Highly Efficient Small Language Models for Web Data Processing

Jina AI выпустила Reader-LM-0.5B и Reader-LM-1.5B: Революционные модели малых языковых моделей для преобразования HTML в Markdown

Выпуск Reader-LM-0.5B и Reader-LM-1.5B Jina AI является значительным событием в технологии малых языковых моделей (SLM). Эти модели разработаны для решения уникальной и конкретной задачи: преобразование сырого, шумного HTML с открытого веб-сайта в чистый формат markdown. Хотя эта задача кажется простой, она представляет собой сложные вызовы, особенно в обработке большого количества шума в современном веб-контенте, такого как заголовки, подвалы и боковые панели. Серия Reader-LM нацелена на эффективное решение этой проблемы, с упором на экономичность и производительность.

Фон и цель

В апреле 2024 года Jina AI представила Jina Reader, API, который преобразует любой URL в markdown, подходящий для больших языковых моделей (LLM). Этот API использует инструменты, такие как пакет Readability от Mozilla, для извлечения основного содержимого веб-страницы, а затем регулярные выражения и библиотеку Turndown для преобразования очищенного HTML в markdown. Однако этот метод столкнулся с проблемами, такими как неправильная фильтрация контента и трудности в преобразовании сложных структур HTML. Получив обратную связь от пользователей, Jina AI поняла, что патчинг существующего конвейера с помощью дополнительных регулярных выражений и эвристик не является устойчивым решением.

Чтобы преодолеть эти ограничения, Jina AI задала важный вопрос: может ли эта проблема быть решена end-to-end с использованием языковой модели? Вместо ручных правил, языковая модель может более эффективно обрабатывать задачу преобразования HTML в markdown, особенно с менее чем миллиардом параметров, что делает ее выполнимой для работы на краю.

Введение моделей Reader-LM

Jina AI выпустила две малые языковые модели: Reader-LM-0.5B и Reader-LM-1.5B. Эти модели обучены специально для преобразования сырого HTML в markdown, и обе поддерживают мультиязычность и контекст длиной до 256 токенов. Эта способность обрабатывать большие контексты критична, поскольку содержимое HTML современных веб-сайтов часто содержит больше шума, чем когда-либо, с встроенным CSS, JavaScript и другими элементами, значительно увеличивающими количество токенов.

В то время как большие языковые модели известны своими высокими вычислительными требованиями, малые языковые модели, такие как Reader-LM, разработаны для обеспечения эффективной производительности без дорогостоящей инфраструктуры. Reader-LM-0.5B и Reader-LM-1.5B превосходят многие более крупные модели в конкретной задаче преобразования HTML в markdown, при этом имея лишь долю их размера.

Архитектура и спецификации

Модели Reader-LM разработаны для обработки входных данных с длинным контекстом и выполнения выборочного копирования из HTML в markdown. Эта задача более проста, чем типичные функции LLM, такие как генерация текста или написание кода. Это поведение выборочного копирования в первую очередь направлено на идентификацию соответствующего контента, пропуская ненужные элементы, такие как боковые панели и заголовки, и форматируя оставшийся контент в синтаксисе markdown.

Спецификации моделей

Reader-LM-0.5B: С 494 миллионами параметров, данная модель включает 24 слоя, 896 скрытых размеров и 14 запросов. Она компактна, но способна эффективно обрабатывать задачу выборочного копирования.

Reader-LM-1.5B: Эта более крупная модель имеет 1,54 миллиарда параметров, 28 слоев, 1536 скрытых размеров и 12 запросов. Она проявляет себя лучше, особенно при работе с более сложными структурами HTML.

Обе модели поддерживают длину контекста до 256 токенов, что критично для обработки часто длинного и шумного HTML-контента, найденного в сети. Их способность обрабатывать мультиязычный контент делает их универсальными инструментами для глобальных приложений.

Производительность и бенчмаркинг

Производительность Reader-LM-0.5B и Reader-LM-1.5B была тщательно оценена по сравнению с несколькими большими языковыми моделями, включая GPT-4o, Gemini-1.5-Flash, LLaMA-3.1-70B и Qwen2-7BInstruct. Модели были протестированы с использованием метрик, таких как ROUGE-L (для задач суммаризации и вопросно-ответной системы), Token Error Rate (TER, который измеряет уровень галлюцинаций контента) и Word Error Rate (WER, который оценивает несоответствия между сгенерированным markdown и оригинальным HTML).

В этих оценках модели Reader-LM превзошли многие более крупные модели в терминах генерации чистого, точного markdown из HTML. Например, Reader-LM-1.5B достигла оценки ROUGE-L 0,72, WER 1,87 и TER 0,19, значительно лучше, чем GPT-4o и другие протестированные модели. Reader-LM-0.5B, хотя и меньше, также показала конкурентоспособные результаты, особенно в задаче сохранения структуры, что важно для преобразования HTML в markdown.

Обучение и разработка

Для обучения моделей Reader-LM требовалось подготовить высококачественные пары данных с сырым HTML и соответствующим markdown. Jina AI сгенерировала эти данные, используя свой существующий API Jina Reader, дополненный синтетическим HTML, сгенерированным GPT-4o для обучения. Итоговый обучающий набор данных содержал примерно 2,5 миллиарда токенов.

Модели обучались в два этапа:

Краткое и простое HTML: На этом этапе использовались до 32 тысяч токенов и 1,5 миллиарда обучающих токенов.

Длинное и сложное HTML: На этом этапе последовательности увеличились до 128 тысяч токенов с 1,2 миллиарда обучающих токенов. Ключевым новшеством на этом этапе было использование механизма “зигзаг-кольцевого внимания”, что улучшило обработку длинных контекстов.

Несмотря на сложность преобразования HTML в markdown, модели были оптимизированы для эффективной обработки этой задачи без излишних вычислительных нагрузок. Они используют такие техники, как контрастный поиск, чтобы предотвратить дегенерацию токенов и повторяющиеся циклы во время генерации markdown.

Прикладные возможности

Reader-LM разработан для практического использования как в индивидуальных, так и в корпоративных средах. Модели могут быть легко протестированы с помощью Google Colab, а производственные среды могут использовать платформы, такие как Azure и AWS, где модели скоро будут доступны. Reader-LM лицензирован под CC BY-NC 4.0, с возможностью коммерческого использования для компаний, ищущих решения для работы на собственных серверах.

Модели идеально подходят для автоматизации извлечения и очистки данных с открытого веба в производственных средах. Преобразуя сырой HTML в чистый markdown, Reader-LM обеспечивает эффективную обработку данных, что упрощает для последующих LLM суммирование, рассуждение и получение инсайтов из веб-контента. Кроме того, их мультиязычные возможности расширяют их применимость в различных отраслях и регионах.

Заключение

Выпуск Reader-LM-0.5B и Reader-LM-1.5B представляет собой прорыв в технологии малых языковых моделей, специально разработанных для преобразования HTML в markdown. Эти модели решают критическую потребность в эффективном, экономичном извлечении данных из шумного и часто ошеломляющего веб-контента, характерного для современного интернета. С их компактным размером, поддержкой длинного контекста и мультиязычными возможностями модели Reader-LM предлагают мощный инструмент для разработчиков и предприятий, стремящихся оптимизировать свои рабочие процессы.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • UI-R1: Улучшение предсказания действий GUI с помощью обучения с подкреплением

    UI-R1 Framework: Улучшение предсказания действий GUI с помощью ИИ Обзор проблемы Традиционный метод обучения больших языковых моделей (LLMs) и агентов графического пользовательского интерфейса (GUI) требует больших объемов размеченных данных, что приводит к длительным…

  • Эффективное Масштабирование Времени Вывода для Бизнеса

    Оптимизация времени вывода для потоковых моделей: практические бизнес-решения Введение Недавние разработки в области искусственного интеллекта сместили акцент с увеличения размера модели и объема обучающих данных на повышение эффективности вычислений во время вывода. Эта…

  • Устойчивое развитие AI для временных рядов с помощью синтетических данных: инновационный подход Salesforce

    Возможности ИИ для анализа временных рядов с использованием синтетических данных Анализ временных рядов имеет огромное значение для бизнеса, но он сталкивается с проблемами доступности и качества данных. Использование синтетических данных может решить эти…

  • Руководство по решению уравнения Бюргера 1D с помощью PINNs в PyTorch

    Практическое руководство по преобразованию бизнеса с помощью ИИ Это руководство демонстрирует, как использовать физически обоснованные нейронные сети (PINNs) для решения уравнения Бургенса и как такие технологии могут улучшить бизнес-процессы и реальную жизнь. Шаги…

  • Открытие OpenVLThinker-7B: Новый уровень визуального мышления для бизнеса

    Улучшение визуального мышления с OpenVLThinker-7B Понимание проблемы Модели, объединяющие обработку языка и интерпретацию изображений, испытывают трудности с многошаговым мышлением. Это создает проблемы в таких задачах, как понимание графиков и решение визуальных математических задач.…

  • Создание агента по анализу данных с использованием Gemini 2.0 и Google API

    Создание агента научных данных с интеграцией ИИ Введение Этот гид описывает, как создать агента научных данных, используя библиотеку Pandas на Python и возможности генеративного ИИ от Google. Следуя этому руководству, бизнес сможет использовать…

  • TxGemma: Революция в разработке лекарств с помощью ИИ от Google

    Введение в TxGemma Разработка лекарств – это сложный и дорогостоящий процесс. TxGemma от Google AI предлагает инновационные решения для оптимизации этого процесса, что позволяет сэкономить время и ресурсы. Решение TxGemma TxGemma использует большие…

  • Открытый Глубокий Поиск: Демократизация ИИ-поиска с помощью открытых агентов рассуждения

    Практические бизнес-решения на основе Open Deep Search (ODS) 1. Автоматизация процессов Определите области, где ИИ может автоматизировать рутинные задачи, что приведет к повышению эффективности и производительности. 2. Улучшение взаимодействия с клиентами Используйте ИИ…

  • Оценка глубины изображения с использованием Intel MiDaS на Google Colab

    Практические бизнес-решения с использованием оценки глубины через монохромное изображение Оценка глубины из одного RGB-изображения с помощью модели Intel MiDaS может значительно улучшить бизнес-процессы, такие как: Улучшение взаимодействия с клиентами через дополненную реальность. Оптимизация…

  • TokenBridge: Оптимизация токенов для улучшенной визуальной генерации

    TokenBridge: Оптимизация визуальной генерации с помощью ИИ Введение в модели визуальной генерации Модели визуальной генерации на основе автогрессии значительно продвинулись в синтезе изображений, благодаря их способности использовать механизмы предсказания токенов, вдохновленные языковыми моделями.…

  • Колмогоров-Тест: Новый Стандарт Оценки Моделей Генерации Кода

    П practical business solutions Чтобы использовать возможности ИИ в вашем бизнесе, рассмотрите следующие стратегии: 1. Определите возможности автоматизации Ищите повторяющиеся задачи или взаимодействия с клиентами, которые ИИ может оптимизировать. Это поможет сократить время…

  • CaMeL: Надежная защита больших языковых моделей от атак

    Улучшение безопасности с помощью CaMeL Введение в проблему Большие языковые модели (LLM) играют важную роль в современных технологиях, но сталкиваются с угрозами безопасности, такими как атаки через инъекции команд. Эти угрозы могут привести…

  • Преобразование бизнес-процессов с помощью AI: Фреймворк PLAN-AND-ACT

    Преобразование бизнес-процессов с помощью ИИ: Рамочная структура PLAN-AND-ACT Понимание проблем Компании сталкиваются с вызовами при использовании ИИ, такими как сложность выполнения задач и адаптация к динамичным условиям. Это требует перевода пользовательских инструкций в…

  • DeepSeek V3-0324: Революция в AI для бизнеса

    Введение Искусственный интеллект (ИИ) значительно развился, но многие компании сталкиваются с высокими затратами на вычисления и разработку больших языковых моделей (LLM). Решение этих проблем возможно благодаря новейшей модели DeepSeek-V3-0324. Решение DeepSeek-V3-0324 Модель DeepSeek-V3-0324…

  • Понимание и улучшение многоагентных систем в ИИ

    Понимание и улучшение многопользовательских систем Введение в многопользовательские системы Многопользовательские системы (MAS) включают сотрудничество нескольких агентов ИИ для выполнения сложных задач. Несмотря на их потенциал, эти системы часто работают хуже, чем одноагентные решения.…

  • Gemini 2.5 Pro: Революция в Искусственном Интеллекте

    Практические бизнес-решения Трансформация бизнес-процессов Компании могут использовать AI-модели, такие как Gemini 2.5 Pro, для повышения операционной эффективности. Вот несколько практических шагов: 1. Определите возможности автоматизации Изучите процессы, которые можно автоматизировать. Анализируйте взаимодействия с…

  • Современные решения для оценки позы человека в бизнесе

    Бизнес-решения: Продвинутая оценка позы человека Введение в оценку позы человека Оценка позы человека — это инновационная технология, которая преобразует визуальную информацию в практические данные о движении человека. Используя такие модели, как MediaPipe, компании…

  • RWKV-7: Эффективное Моделирование Последовательностей для Бизнеса

    Введение в RWKV-7 Модель RWKV-7 представляет собой значительное достижение в области моделирования последовательностей благодаря инновационной архитектуре рекуррентной нейронной сети (RNN). Это более эффективная альтернатива традиционным авторегрессионным трансформерам, особенно для задач, требующих обработки длинных…