TxT360:一个用于大语言模型训练的全球去重的高质量数据集

总计超过15万亿tokens,去重后的约5.7万亿个高质量的tokens。
– 数据集包含99个从互联网上抓取的网页数据集
– 14个高质量的精选数据源,例如法律文档、百科全书等
-不仅包含文本,还存储了丰富的元数据(如每条数据的来源、类别等)
– TxT360是首个对如此大规模的数据进行全球去重的预训练数据集, 去除重复数据,避免了训练中的数据冗余和信息重复现象。
– 数据集还提供了一种方法(配方),允许用户根据不同的数据来源或需求调整数据的权重。这意味着用户可以灵活地决定哪些数据在模型训练中应该占更大的比例,以优化模型的性能。
详细介绍:https://xiaohu.ai/p/14475
数据集下载:https://huggingface.co/datasets/LLM360/TxT360、