CodeMaker AI: Достижение в разработке программного обеспечения
CodeMaker AI смог автономно воссоздать библиотеку программного обеспечения объемом 90 000 строк с удивительной схожестью 91% с оригинальным кодом. Это открывает новые возможности для использования ИИ в разработке ПО, позволяя существенно сократить ручное кодирование и ускорить сроки разработки. CodeMaker AI способен понимать и генерировать сложные структуры кода, обрабатывает более 3 200 файлов и воссоздает код менее чем за два часа. Благодаря применению передовых методов машинного обучения, CodeMaker AI показал, что генерация кода крупного масштаба, ранее трудоемкая для человеческих разработчиков, теперь может быть достигнута с точностью, скоростью и экономичностью.
Эксперимент CodeMaker AI
Основой эксперимента CodeMaker AI было точное настройка модели машинного обучения на кодовой базе, позволяющая ИИ автономно генерировать код. Точная настройка подразумевает дополнительное обучение предварительно обученной модели на конкретном наборе данных для адаптации к определенной задаче. В рамках этого проекта ИИ был настроен на полную производственную кодовую базу, что позволило ему генерировать код, соответствующий определенным стилям кодирования, областям домена и структуре.
Процесс точной настройки
Процесс точной настройки включал обучение модели ИИ на 129 миллионах токенов из кодовой базы, что заняло 11 часов и 44 минуты и стоило $1949.75. Затем модель использовалась для воссоздания стертого кода в каталоге `src/main/java` с использованием функции пакетной генерации кода CodeMaker AI. Команда, использованная для этой операции, была:
—bash
codemaker generate code –model user-model **/src/main/**/*.java
Этот процесс пакетной генерации был завершен за 1 час и 42 минуты, демонстрируя эффективность CodeMaker AI в задачах генерации кода крупного масштаба.
Сравнение кода и оценка
Для оценки точности сгенерированного ИИ кода CodeMaker AI использовал два ключевых метрики: уровень ошибок и уровень сходства. Уровень ошибок определялся как расстояние Левенштейна между оригинальными и сгенерированными файлами, измеряя насколько далеко они друг от друга. Уровень сходства рассчитывался следующим образом:
—Python
similarity_rate = 1 – (dist(a, b) / max(len(a), len(b)))
Эта метрика отвечала на вопрос о том, насколько похожи два файла, с результатами, усредненными по всем файлам в наборе данных. Для сравнения использовались две модели: базовая модель с 7B параметрами и точно настроенная модель с 7B параметрами. Результаты были следующими:
Точно настроенная модель превзошла базовую модель, снизив уровень ошибок и увеличив сходство. Это подчеркивает важность задаче-специфической точной настройки для ИИ моделей в генерации программного обеспечения.