Новости

Инструкция по настройке крупнейшего предварительно обученного LLM с расширенным поиском

В этой захватывающей новой статье NVIDIA представлен Retro 48B, крупнейший LLM, предварительно обученный с помощью извлечения.

Продолжает предварительное обучение модели GPT с параметрами 43B на дополнительных токенах 100B, извлекая из токенов 1,2T (с использованием метода ретро-дополнения).

Модель Retro 48B демонстрирует значительное улучшение чувствительности по сравнению со своим аналогом GPT 43B.

Масштабирование модели Retro до 48B означает, что ее можно более эффективно настраивать с помощью инструкций. В этой работе применяется настройка инструкций к Retro 48B и демонстрируется значительное улучшение (+7%) по сравнению с GPT с настройкой инструкций в задачах с нулевым ответом на вопросы.

Важным выводом из этой работы является потенциальная выгода, получаемая от предварительного обучения с поиском. Результаты подчеркивают многообещающее направление получения лучшего декодера GPT для контроля качества посредством непрерывного предварительного обучения с поиском перед настройкой инструкций.

Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *