RedPajama-Data-v2: открытый набор данных с 30 триллионами токенов для обучения больших языковых моделей
Новости

Together AI представили новый набор данных RedPajama-Data-v2 с 30 триллионами токенов

В этом репозитории содержится код для набора данных RedPajama-V2. Для получения дополнительной информации о наборе данных ознакомьтесь с нашим сообщением в блоге. Набор данных также доступен на HuggingFace. Код, используемый для набора данных RedPajama-1T, пожалуйста, смотрите в rp ветке этого репозитория.

Dataset

RedPajama-V2 – это открытый набор данных для обучения больших языковых моделей. Набор данных включает более 100 Б текстовых документов, полученных из 84 снимков CommonCrawl и обработанных с использованием конвейера CCNet. Из них в корпусе имеется 30 МЛРД документов, которые дополнительно содержат сигналы качества, и 20 МЛРД документов, которые дедуплицированы.

Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных

Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных показано в таблице ниже.

# ДокументыРасчетное количество токенов (дедуплицировано)
en14.5B20.5T
de1.9B3.0T
FR1.6B2.7T
es1.8B2.8T
IT0.9B1.5T
Всего20.8B30.4T

Языки

Английский, немецкий, Французский, итальянский, испанский

Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *