Together AI представили новый набор данных RedPajama-Data-v2 с 30 триллионами токенов

В этом репозитории содержится код для набора данных RedPajama-V2. Для получения дополнительной информации о наборе данных ознакомьтесь с нашим сообщением в блоге. Набор данных также доступен на HuggingFace. Код, используемый для набора данных RedPajama-1T, пожалуйста, смотрите в rp ветке этого репозитория.

Dataset

RedPajama-V2 — это открытый набор данных для обучения больших языковых моделей. Набор данных включает более 100 Б текстовых документов, полученных из 84 снимков CommonCrawl и обработанных с использованием конвейера CCNet. Из них в корпусе имеется 30 МЛРД документов, которые дополнительно содержат сигналы качества, и 20 МЛРД документов, которые дедуплицированы.

Количество документов и токенов для аннотированной и дедуплицированной `head_middle` части набора данных

Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных показано в таблице ниже.

	# Документы	Расчетное количество токенов (дедуплицировано)
en	14.5B	20.5T
de	1.9B	3.0T
FR	1.6B	2.7T
es	1.8B	2.8T
IT	0.9B	1.5T
Всего	20.8B	30.4T

Языки

Английский, немецкий, Французский, итальянский, испанский

Похожее

Hi, I’m admin

All My Articles

Dataset

Количество документов и токенов для аннотированной и дедуплицированной head_middle части набора данных

Языки

Похожее

Hi, I’m admin

Related Posts

MIMO-EMBODIED ОТ XIAOMI: ЕДИНАЯ МОДЕЛЬ ДЛЯ АВТОНОМНОГО ВОЖДЕНИЯ И «ВОПЛОЩЁННОГО» ИИ

Искусственный интеллект на перепутье: Технологический прорыв, консолидация рынка и глобальные вызовы (06-11 мая 2025)

ИИ на грани перемен: обзор главных мировых событий за неделю (30.04–04.05.2025)

Добавить комментарий Отменить ответ

Количество документов и токенов для аннотированной и дедуплицированной `head_middle` части набора данных