В этом репозитории содержится код для набора данных RedPajama-V2. Для получения дополнительной информации о наборе данных ознакомьтесь с нашим сообщением в блоге. Набор данных также доступен на HuggingFace. Код, используемый для набора данных RedPajama-1T, пожалуйста, смотрите в rp ветке этого репозитория.
Dataset
RedPajama-V2 — это открытый набор данных для обучения больших языковых моделей. Набор данных включает более 100 Б текстовых документов, полученных из 84 снимков CommonCrawl и обработанных с использованием конвейера CCNet. Из них в корпусе имеется 30 МЛРД документов, которые дополнительно содержат сигналы качества, и 20 МЛРД документов, которые дедуплицированы.
Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных
Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных показано в таблице ниже.
| # Документы | Расчетное количество токенов (дедуплицировано) | |
|---|---|---|
| en | 14.5B | 20.5T |
| de | 1.9B | 3.0T |
| FR | 1.6B | 2.7T |
| es | 1.8B | 2.8T |
| IT | 0.9B | 1.5T |
| Всего | 20.8B | 30.4T |
Языки
Английский, немецкий, Французский, итальянский, испанский
