Современные нейронные модели, способные решать сложные задачи в математике и программировании, являются революцией в области искусственного интеллекта. Однако высокие затраты на обучение подобных моделей часто делают их недоступными для широкого круга исследователей. Sky-T1-32B-Preview, представленная NovaSky, демонстрирует новый подход, где передовая модель обучения была создана с бюджетом менее $450. Эта статья анализирует ключевые аспекты разработки Sky-T1, включая ее данные, методику обучения и результаты, а также перспективы применения.
1. Цели и концепция Sky-T1
Sky-T1 нацелен на разработку доступных моделей для задач логического вывода, сочетающих производительность с низкими затратами. Основные задачи включали:
- Обеспечение открытого доступа к данным, исходному коду и весам модели.
- Улучшение методов обучения через тщательную обработку данных и оптимизацию вычислительных ресурсов.
- Совмещение возможностей для решения задач в разных доменах: математика, программирование и логика.
2. Методология
Sky-T1-32B-Preview обучался с использованием модели Qwen2.5-32B-Instruct, известной отсутствием встроенных возможностей логического вывода. Для достижения оптимальных результатов использовались следующие подходы:
2.1 Обработка данных
- Качество данных: Обучающий набор включал 17 тыс. записей: 10 тыс. математических задач из AIME, MATH и Олимпиад; 5 тыс. программных задач из APPs и TACO.
- Форматирование данных: Использование GPT-4o-mini для улучшения структуры данных, что повысило точность выполнения задач с 25% до 90% на тестах APPs.
- Отбор данных: Применялся метод отклонения некорректных примеров путем сравнения с эталонными решениями, а для кода — выполнение юнит-тестов.
2.2 Обучение
Модель обучалась за 19 часов на 8 GPU (NVIDIA H100), используя DeepSpeed Zero-3 offload для оптимизации затрат. Конечная стоимость составила $450 (в рамках облачных сервисов Lambda Labs).
3. Результаты
Sky-T1 показала конкурентные результаты на стандартных тестах:
- Математика: Точность на Math500 составила 82.4% (на уровне o1-preview).
- Программирование: На LiveCodeBench-Easy точность достигла 86.3%, превзойдя базовые модели.
- Многодоменные задачи: Sky-T1 удалось объединить возможности решения как математических, так и кодовых задач.
Сравнение производительности:
Модель | Math500 | LiveCodeBench-Easy | AIME2024 |
---|---|---|---|
Sky-T1-32B-Preview | 82.4% | 86.3% | 43.3% |
Qwen-2.5-32B-Instruct | 76.2% | 84.6% | 16.7% |
4. Анализ подходов
- Размер модели: При меньших размерах (7B или 14B) модели показывали менее стабильные результаты. Объем в 32B оказался оптимальным для выполнения сложных задач.
- Разнообразие данных: Смешение задач из математики и программирования дало синергетический эффект, что позволило модели добиться высоких результатов в обоих доменах.
5. Практическая значимость
- Открытые исходные данные: Код и веса Sky-T1 доступны на GitHub и HuggingFace, что снижает порог входа для исследователей.
- Доступное обучение: Демонстрация того, что обучение мощных моделей возможно при ограниченном бюджете.
Заключение
Sky-T1-32B-Preview — это значимый шаг в сторону демократизации ИИ-исследований. Модель открывает новые возможности для создания эффективных систем логического вывода с минимальными затратами. Перспективы включают дальнейшую оптимизацию модели, улучшение совместимости с различными доменами и внедрение новых техник обучения.
Список источников
- Sky-T1: Train your own O1 preview model within $450
- Открытые данные на GitHub и HuggingFace.
- Отчеты Still-2 и Journey (arXiv).