Sky-T1: Создание доступной модели ИИ с минимальным бюджетом

Современные нейронные модели, способные решать сложные задачи в математике и программировании, являются революцией в области искусственного интеллекта. Однако высокие затраты на обучение подобных моделей часто делают их недоступными для широкого круга исследователей. Sky-T1-32B-Preview, представленная NovaSky, демонстрирует новый подход, где передовая модель обучения была создана с бюджетом менее $450. Эта статья анализирует ключевые аспекты разработки Sky-T1, включая ее данные, методику обучения и результаты, а также перспективы применения.

1. Цели и концепция Sky-T1

Sky-T1 нацелен на разработку доступных моделей для задач логического вывода, сочетающих производительность с низкими затратами. Основные задачи включали:

Обеспечение открытого доступа к данным, исходному коду и весам модели.
Улучшение методов обучения через тщательную обработку данных и оптимизацию вычислительных ресурсов.
Совмещение возможностей для решения задач в разных доменах: математика, программирование и логика.

2. Методология

Sky-T1-32B-Preview обучался с использованием модели Qwen2.5-32B-Instruct, известной отсутствием встроенных возможностей логического вывода. Для достижения оптимальных результатов использовались следующие подходы:

2.1 Обработка данных

Качество данных: Обучающий набор включал 17 тыс. записей: 10 тыс. математических задач из AIME, MATH и Олимпиад; 5 тыс. программных задач из APPs и TACO.
Форматирование данных: Использование GPT-4o-mini для улучшения структуры данных, что повысило точность выполнения задач с 25% до 90% на тестах APPs.
Отбор данных: Применялся метод отклонения некорректных примеров путем сравнения с эталонными решениями, а для кода — выполнение юнит-тестов.

2.2 Обучение

Модель обучалась за 19 часов на 8 GPU (NVIDIA H100), используя DeepSpeed Zero-3 offload для оптимизации затрат. Конечная стоимость составила $450 (в рамках облачных сервисов Lambda Labs).

3. Результаты

Sky-T1 показала конкурентные результаты на стандартных тестах:

Математика: Точность на Math500 составила 82.4% (на уровне o1-preview).
Программирование: На LiveCodeBench-Easy точность достигла 86.3%, превзойдя базовые модели.
Многодоменные задачи: Sky-T1 удалось объединить возможности решения как математических, так и кодовых задач.

Сравнение производительности:

Модель	Math500	LiveCodeBench-Easy	AIME2024
Sky-T1-32B-Preview	82.4%	86.3%	43.3%
Qwen-2.5-32B-Instruct	76.2%	84.6%	16.7%

4. Анализ подходов

Размер модели: При меньших размерах (7B или 14B) модели показывали менее стабильные результаты. Объем в 32B оказался оптимальным для выполнения сложных задач.
Разнообразие данных: Смешение задач из математики и программирования дало синергетический эффект, что позволило модели добиться высоких результатов в обоих доменах.

5. Практическая значимость

Открытые исходные данные: Код и веса Sky-T1 доступны на GitHub и HuggingFace, что снижает порог входа для исследователей.
Доступное обучение: Демонстрация того, что обучение мощных моделей возможно при ограниченном бюджете.

Заключение

Sky-T1-32B-Preview — это значимый шаг в сторону демократизации ИИ-исследований. Модель открывает новые возможности для создания эффективных систем логического вывода с минимальными затратами. Перспективы включают дальнейшую оптимизацию модели, улучшение совместимости с различными доменами и внедрение новых техник обучения.