В этом репозитории содержится код для набора данных RedPajama-V2. Для получения дополнительной информации о наборе данных ознакомьтесь с нашим сообщением в блоге. Набор данных также доступен на HuggingFace. Код, используемый для набора данных RedPajama-1T, пожалуйста, смотрите в rp
ветке этого репозитория.
Dataset
RedPajama-V2 – это открытый набор данных для обучения больших языковых моделей. Набор данных включает более 100 Б текстовых документов, полученных из 84 снимков CommonCrawl и обработанных с использованием конвейера CCNet. Из них в корпусе имеется 30 МЛРД документов, которые дополнительно содержат сигналы качества, и 20 МЛРД документов, которые дедуплицированы.
Количество документов и токенов для аннотированной и дедуплицированной head_middle
части набора данных
Количество документов и токенов для аннотированной и дедуплицированной head_middle
части набора данных показано в таблице ниже.
# Документы | Расчетное количество токенов (дедуплицировано) | |
---|---|---|
en | 14.5B | 20.5T |
de | 1.9B | 3.0T |
FR | 1.6B | 2.7T |
es | 1.8B | 2.8T |
IT | 0.9B | 1.5T |
Всего | 20.8B | 30.4T |
Языки
Английский, немецкий, Французский, итальянский, испанский