智源研究院联合拓尔思、中科闻歌共建中文互联网语料库，为大模型夯实数据基础

http://www.chaguwang.cn 2023-11-29 拓尔思内幕信息

来源 :证券时报网2023-11-29

　　11月29日，记者从智源研究院获悉，中文互联网语料库正式建立。据了解，中文互联网语料库由智源研究院联合拓尔思、中科闻歌共建，旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源，推动大数据和人工智能领域的健康发展。

　　今年以来，大模型的快速发展让业界及学界对高质量数据集的需求日益增长，缺乏高质量中文数据集成为大模型训练过程中的一大困难。高质量数据集不仅需要包含大量信息，而且还需经过严格的筛选和清洗，以确保其准确性和下游模型及应用的安全。然而当前在中文领域，高质量、符合安全要求的数据集十分匮乏，而且很多公开的数据集也存在诸多问题。

　　据智源研究院介绍，当前公开数据集主要存在以下问题：一是数据来源杂乱，存在潜在内容风险；二是容易存在侵犯他人隐私权、版权等合法权益的风险；三是可能包含对特定人群不公正或者含有偏见的歧视性内容，从而导致模型的可接受度受影响；四是存在不真实的信息，会降低模型的可靠性和可信度。

　　当前市场上存在很多数据清洗机构，在内容审核与安全过滤方面亦投入了大量的人力与物力。然而，不同机构在内容清洗上的标准不一，对负面信息或违法违规信息的分类体系也大相径庭，导致整体效果不太理想。因此开源一个经过严格筛选和标准化处理的数据集对于大模型技术创新与发展尤为重要。

　　因此，智源研究院通过与企业开展合作及资源共享，推出了中文互联网语料库。据智源研究院介绍，这一语料库的数据均来源于高质量可信、中国境内的互联网站，经过严格的数据清洗和去重，并且在内容质量、价值观等方面进行了针对性的检测与过滤，进一步提升数据质量和安全可信程度。

　　此次数据处理的规则包括基于规则的过滤、基于模型的过滤以及数据去重，实现了文字密度提取、敏感词过滤、垃圾信息过滤、简繁体转换、低质量内容过滤、数据集内部/数据集间去重等等。除此以外，在数据处理过程中还采用了多种检索技术，对当前主流的多个中文评测数据集进行严格筛查和过滤。据介绍，中文互联网语料库首期开放的数据（CCI v1.0.0）规模为 104GB。数据集总体的时间跨度为2001年1月至2023年11月。

　　据了解，智源研究院是人工智能领域的新型研发机构，在科技部和北京市支持下于2018年成立。公开资料显示，作为创新型研究院，智源研究院在运行机制探索中，形成了集中力量办大事、青年人才挑大梁、开放生态育创新的独特智源模式。今年6月，智源研究院院长黄铁军在2023北京智源大会上作报告，发布悟道3.0大模型系列，据悉，该模型是目前中国首个、全球最大的万亿级模型。

　　智源研究院持续推动中国高质量中文数据资源的有效利用。今年9月，智源研究院开源了全球最大的中英文文本对语义向量模型训练数据集MTP（massive text pairs），数据规模达3亿对（其中中文1亿，英文2亿）。文本主题丰富，源自海量优质文本数据，涉及搜索、社区问答、百科常识、科技文献等多种主题。

　　一名接近智源研究院的业内人士向记者分析，此次建立中文互联网语料库有助于提升和中文语料库的规模和数据集的质量，从而为大模型技术的进一步发展夯实更强的数据基础。