В этой захватывающей новой статье NVIDIA представлен Retro 48B, крупнейший LLM, предварительно обученный с помощью извлечения.
Продолжает предварительное обучение модели GPT с параметрами 43B на дополнительных токенах 100B, извлекая из токенов 1,2T (с использованием метода ретро-дополнения).
Модель Retro 48B демонстрирует значительное улучшение чувствительности по сравнению со своим аналогом GPT 43B.
Масштабирование модели Retro до 48B означает, что ее можно более эффективно настраивать с помощью инструкций. В этой работе применяется настройка инструкций к Retro 48B и демонстрируется значительное улучшение (+7%) по сравнению с GPT с настройкой инструкций в задачах с нулевым ответом на вопросы.
Важным выводом из этой работы является потенциальная выгода, получаемая от предварительного обучения с поиском. Результаты подчеркивают многообещающее направление получения лучшего декодера GPT для контроля качества посредством непрерывного предварительного обучения с поиском перед настройкой инструкций.