Apple выпустила открытую модель языка AI, обученную на 2,5T токенов на открытых наборах данных

 Apple AI Released a 7B Open-Source Language Model Trained on 2.5T Tokens on Open Datasets

Использование языковых моделей в искусственном интеллекте

Языковые модели (LMs) стали фундаментальными в обработке естественного языка (NLP), позволяя генерацию текста, перевод и анализ тональности. Однако для точной и эффективной работы эти модели требуют огромного объема тренировочных данных. Качество и курирование этих наборов данных критически влияют на производительность LMs. Эта область фокусируется на улучшение методов сбора и подготовки данных для повышения эффективности моделей.

Проблемы и решения

Одной из ключевых проблем в разработке эффективных языковых моделей является улучшение тренировочных наборов данных. Высококачественные наборы данных необходимы для обучения моделей, которые обобщают задачи, однако создание таких наборов данных сложно. Это включает фильтрацию нерелевантного или вредоносного контента, удаление дубликатов и выбор наиболее полезных источников данных.

Существующие методы курирования наборов данных обычно включают в себя фильтрацию на основе эвристик, удаление дубликатов и сбор данных из обширных веб-краулеров. Хотя эти методы имеют некоторый успех, часто требуются более стандартизированные показатели, что приводит к согласованности при оценке производительности языковых моделей. Эта изменчивость затрудняет определение наиболее эффективных стратегий курирования данных, что затрудняет прогресс в этой области.

Ученые из Apple, University of Washington и других учреждений представили DataComp for Language Models (DCLM) для решения этих проблем. Они недавно опубликовали модели DCIM и наборы данных на платформе Hugging Face. Релиз включает DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 и dclm-baseline-1.0-parquet. Этот инновационный тестовый стенд позволяет проводить контролируемые эксперименты с большими наборами данных для улучшения языковых моделей. DCLM предоставляет структурированный рабочий процесс для исследователей, позволяя проводить эксперименты с курированием данных и тестировать их производительность на различных задачах.

Эффективность и потенциал

Внедрение DCLM привело к значительным улучшениям в обучении языковых моделей. Например, базовый набор данных, созданный с использованием DCLM, позволил обучить языковую модель с 7 миллиардами параметров с нуля. Эта модель достигла 64% точности на бенчмарке MMLU с 2.6 триллионами тренировочных токенов. Эта производительность представляет собой улучшение на 6.6 процентных пункта по сравнению с предыдущей передовой языковой моделью с открытыми данными, MAP-Neo, используя 40% меньше вычислительных ресурсов.

Эффективность DCLM подтверждается ее масштабируемостью. Исследователи проводили эксперименты на различных масштабах, от 400M до более чем 7B параметров, используя DCLM-Pool, корпус из 240 триллионов токенов из Common Crawl. Эти эксперименты подчеркнули важную роль модельной фильтрации в сборке высококачественных тренировочных наборов данных. Базовый набор данных DCLM, созданный через этот тщательный процесс, последовательно превзошел другие наборы данных с открытым исходным кодом в различных оценках.

Команда исследователей также исследовала влияние различных техник курирования данных. Они сравнили методы извлечения текста, такие как resiliparse и trafilatura, и обнаружили, что эти подходы значительно улучшают производительность по сравнению с предварительно извлеченным текстом Common Crawl. Они также провели исследования модельных методов фильтрации качества и установили, что классификатор fastText OH-2.5 + ELI5 является наиболее эффективным, обеспечивая существенный прирост в точности.

Заключение

Введение DCLM позволяет исследователям проводить контролируемые эксперименты и выявлять наиболее эффективные стратегии для улучшения языковых моделей, предоставляя стандартизированный и систематический подход к курированию наборов данных. DCLM устанавливает новые стандарты качества наборов данных и демонстрирует потенциал для значительного улучшения производительности с уменьшением вычислительных ресурсов.

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект

Новости

  • Itinai.com it company office background blured photography by d266ecb7 1141 4fd8 a45e d7242fbf1e9e 3

    Создание Модульных AI Рабочих Процессов с Помощью Claude и LangGraph

    Построение Модульных AI Рабочих Процессов с Anthropic’s Claude и LangGraph Этот гид предлагает простой подход к внедрению LangGraph, удобной структуры для создания AI рабочих процессов с интеграцией API Anthropic’s Claude. Следуя этому руководству,…

  • Itinai.com it company office background blured photography by b78d385e b261 4424 829c 8c380ea5040f 2

    Отчет Marktechpost 2025: Агентный ИИ и ИИ-агенты

    Преобразование бизнеса с помощью агентного ИИ Отчет Marktechpost о агентном ИИ и ИИ-агентах 2025 года предлагает ценные идеи для внедрения ИИ в бизнес-процессы. Рассмотрим, как эти технологии могут улучшить бизнес и реальную жизнь.…

  • Itinai.com it company office background blured photography by 783785eb 8fa3 46e6 bc84 19f52afaa824 1

    PARSCALE: Эффективное Параллельное Вычисление для Масштабируемого Развертывания Языковых Моделей

    Введение в PARSCALE Метод PARSCALE представляет собой новый подход к эффективному развертыванию языковых моделей, который может существенно улучшить бизнес-процессы. Проблемы масштабирования языковых моделей Традиционные методы требуют значительных ресурсов, что может замедлять развертывание и…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 2

    Новая эра оценки ИИ: Преимущества фреймворка J1 от Meta

    Преобразование с помощью AI: Практические бизнес-решения Введение в J1 Недавние достижения в области искусственного интеллекта привели к разработке больших языковых моделей (LLM), которые могут выполнять задачи оценки и суждения. Модель J1 предлагает новый…

  • Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 2

    Масштабируемое генеративное моделирование: инновации Meta AI

    Преобразование бизнеса с помощью ИИ Понимание проблемы нехватки данных Генеративные модели требуют больших и качественных наборов данных для создания высококачественных образцов. Однако в специализированных областях, таких как молекулярное моделирование, получение таких данных может…

  • Itinai.com it company office background blured photography by 976ad3f5 ce78 4bd8 aa05 19f4de5f5730 1

    Создание AI-агента с использованием Google ADK: пошаговое руководство

    Создание AI-агента с использованием Google ADK: Практическое руководство 1. Настройка вашей среды 1.1 Получение необходимых API-ключей Для использования AI-сервисов Google и доступа к финансовым данным вам понадобятся два API-ключа: Google API Key: Перейдите…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 3

    MedGemma: Новые возможности ИИ для анализа медицинских текстов и изображений

    Практические бизнес-решения с использованием MedGemma MedGemma от Google представляет собой мощный инструмент для анализа медицинских текстов и изображений. Вот как его можно использовать для улучшения бизнеса и реальной жизни. Шаги для внедрения MedGemma…

  • Itinai.com it company office background blured photography by 724d9f47 b65a 445e b4b5 b5939a7eba28 3

    Запуск Cosmos-Reason1: Новые горизонты для физического ИИ

    Введение в физический ИИ Искусственный интеллект (ИИ) достиг значительных успехов в таких областях, как обработка языка и генерация кода. Однако применение этих возможностей в реальных условиях связано с уникальными проблемами. Физический ИИ предназначен…

  • Itinai.com it company office background blured photography by 783785eb 8fa3 46e6 bc84 19f52afaa824 2

    Улучшение генерализации языковых моделей: исследование в контексте обучения и дообучения

    Улучшение обобщения языковых моделей Языковые модели (ЯМ) обладают выдающимися способностями к обучению на основе контекста. Однако, их настройка для конкретных задач может быть сложной. Для улучшения бизнес-процессов и реальной жизни, важно использовать подходы,…

  • Itinai.com it company office background blured photography by 41bad236 c948 453e 803a 7165a764e0bf 3

    MemEngine: Модульная библиотека ИИ для управления памятью в агенттах LLM

    MemEngine: Улучшение памяти в AI-агентах Важность памяти в AI-агентах Память играет жизненно важную роль в функциональности агентов на основе больших языковых моделей (LLM). Она позволяет агентам: Сохранять и вспоминать информацию Отражать прошлые взаимодействия…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 1

    Meta запускает KernelLLM: Эффективная генерация GPU-ядр

    Преобразование GPU-программирования с помощью KernelLLM Обзор KernelLLM KernelLLM от Meta — это продвинутая языковая модель, которая упрощает разработку GPU-ядр. С 8 миллиардами параметров, она позволяет разработчикам сосредоточиться на оптимизации производительности, избавляя их от…

  • Itinai.com it company office background blured photography by 12fe5e49 d0a5 47b8 a36f 0071089d22c3 3

    Эффективная настройка Qwen3-14B с Unsloth AI на Google Colab

    Практическое руководство по тонкой настройке Qwen3-14B с использованием Unsloth AI Введение Тонкая настройка больших языковых моделей, таких как Qwen3-14B, может быть трудоемкой. Unsloth AI предлагает упрощенный подход, который снижает использование ресурсов. Это руководство…

  • Itinai.com it company office background blured photography by c2deb05c 8496 4a4d 8cab 2bb3d57fc0f0 3

    Запуск мобильного приложения NotebookLM от Google: революция в исследованиях

    Введение Приложение NotebookLM от Google — это революционный шаг в области исследований, предлагающий пользователям доступ к персонализированным инструментам для работы с контентом. Ключевые особенности NotebookLM 1. Улучшенный контекстный ИИ NotebookLM использует модель Gemini…

  • Itinai.com it company office background blured photography by 48cb21e9 ed8f 4a55 9f5b 4570e52f1cce 1

    UAEval4RAG: Новый стандарт оценки систем RAG для отказа от неразрешимых запросов

    Улучшение оценки ИИ с помощью UAEval4RAG Исследователи Salesforce представили новую структуру под названием UAEval4RAG, разработанную для улучшения оценки систем Retrieval-Augmented Generation (RAG). Эта структура фокусируется на способности систем отклонять запросы, на которые нельзя…

  • Itinai.com it company office background blured photography by 392d7806 596c 4c64 a1ae 56d85025c3f2 2

    Агентный ИИ в финансовых услугах: возможности и риски

    Возможности Agentic AI в финансовых услугах Введение в Agentic AI Agentic AI — это продвинутые программные системы, способные автономно принимать решения и планировать. Эти системы отличаются от традиционных автоматизированных инструментов и чат-ботов, используя…

  • Itinai.com it company office background blured photography by 48cb21e9 ed8f 4a55 9f5b 4570e52f1cce 3

    Ограничения методов интерпретации ИИ: результаты исследования Anthropic

    Понимание разъяснений ИИ: Практические бизнес-решения Введение в цепочку размышлений Метод цепочки размышлений (CoT) помогает понять, как большие языковые модели (LLM) приходят к своим выводам. Это особенно важно в критически важных областях, таких как…

  • Itinai.com it company office background blured photography by 0b545732 d29f 4839 a448 751a77ba1563 2

    Omni-R1: Прорыв в аудио-вопросах с использованием обучения с подкреплением

    Преобразование бизнеса с помощью Omni-R1 Недавние инновации в области искусственного интеллекта показывают, что обучение с подкреплением (RL) может значительно улучшить аналитические способности больших языковых моделей (LLMs). Omni-R1 продвигает аудио-вопросы и ответы, интегрируя текстовое…

  • Itinai.com it company office background blured photography by d266ecb7 1141 4fd8 a45e d7242fbf1e9e 2

    Эффективный векторный поиск в Azure Cosmos DB от Microsoft

    Эффективный поиск векторных данных с помощью Microsoft Azure Cosmos DB Инновационное решение Microsoft Microsoft разработала систему, которая интегрирует возможности векторного поиска непосредственно в Azure Cosmos DB. Это позволяет бизнесу выполнять эффективные поиски по…