来源 :拓尔思2023-08-29
拓尔思入选北京市第二批人工智能大模型高质量数据集
8月28日,在2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”上,拓尔思的电子报刊数据、互联网主流新闻网站数据、新闻资讯客户端数据、政务网站数据、拓知基因数据库成功入选第二批北京市人工智能大模型高质量数据集。继7月2日入选北京市通用人工智能产业创新伙伴计划(第二批)—数据伙伴、模型观察员和首批北京市人工智能大模型高质量数据集后,拓尔思再度入选第二批北京市人工智能大模型高质量数据集,彰显了超过十年高质量数据资产积累的硬实力。
「通用人工智能算力论坛由北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办,石景山区经济和信息化局、企商在线(北京)数据技术股份有限公司承办。政府部门、院士专家学者、知名企业家等共聚一堂,共议产业发展之路。
本批次数据集包括16家机构发布的41个数据集,涉及“医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等多个领域。」
01电子报刊数据
电子报刊数据来自全国各级党报、行业专业报刊数据,拥有3500万json格式的文本数据、1332万幅图片及PDF的数据规模和6.36T的数据量。
02互联网主流新闻网站数据
互联网主流新闻网站数据来自官方媒体网站、门户资讯网站、行业新闻门户网站、网信办可供转载白名单资质单位和网信办新闻服务许可资质单位,拥有3.5亿条json格式的文本数据、9988万张图片的数据规模和52.94T的数据量。
03新闻资讯客户端数据
新闻资讯客户端数据来自主流各级党媒、行业、商业新闻客户端,拥有3.2亿条json格式的文本数据的数据规模和3.2T的数据量。
04政务网站数据
政务网站数据囊括各级人民政府网站发布数据、各部委及省厅委办局发布数据、公文类数据和政策法规类数据,拥有8431万条json格式的文本数据的数据规模和900G的数据量。
05拓知基因数据库
拓知基因数据库拥有4.2亿条专利基因序列及11.7亿条公共资源生物序列的数据规模和3.0T的数据量,系统涵盖全球40多个国家、地区和组织的生物序列相关专利数据及32个公共资源库,提供生物序列检索、序列比对、基因专利检索等在线云服务,为生物技术领域的发展和创新提供支撑。
数据信源权威可靠、智能清洗协同标注、主流价值观对齐、专业领域知识注入的高质量数据与业务场景进行紧密融合,形成不同类型的数据产品,在不同行业中发挥着重要作用。拓尔思将持续推动数据高质量汇聚,建立有效的数据治理环境,保障数据的质量和安全,最大化发挥数据的价值。