来源 :海天瑞声2024-07-11
“以共商促共享以善治促善智”,7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)在上海开幕,国务院总理李强出席开幕式并致辞。
大会期间,共举办108场论坛,1300位行业嘉宾受邀出席,超30万人参加了本次论坛和展览。海天瑞声受邀参加WAIC 2024,携大模型全场景数据解决方案璀璨登场。
在大会的展览板块中,工信部主办的中国人工智能产业创新成果展,以“人工智能赋能新型工业化”为主题,将我国在人工智能领域的创新实践融入到国际发展大局,立足国际视角,向世界生动展示我国技术、产业、治理等方面进展与成效。
本次成果展中,共有来自国内的60多家顶尖AI企业/大模型公司共同参展,携手助力中国人工智能场景的应用落地。海天瑞声携全球领先的大规模、高质量、多语种、多样性的自有知识产权AI训练数据集精彩亮相。重点展示了海天瑞声在训练数据的产品规模、语种/方言覆盖量的领先优势,以及强大的数据处理平台和工具。
本次展览中,海天瑞声带来最新大模型全场景数据解决方案,全面满足大模型在预训练、指令微调、对齐、评估等不同阶段的训练数据需求,为大模型提供数据基石。同时,全面展示了“一带一路百国多语种数据集”,吸引了众多到场嘉宾的驻足和咨询,共同探索人工智能的可持续发展路径。
7月6日,由上海市数商协会主要承办的“2024世界人工智能大会语料主题论坛”成功举办。上海市政府副秘书长庄木弟出席论坛并致辞,中国科学院院士鄂维南作主旨演讲。上海市各相关部门代表、上海人工智能实验室、人民网、上海报业、上海图书馆、上海信投、上海算法创新研究院、中国信通院、复旦大学、华东师范大学、上海资产管理协会、中国银行、招商银行、国泰君安等超过1000家大模型语料生态企业共同参会。海天瑞声助理副总裁崔向宇受邀出席论坛。
本次论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。
发布“一带一路百国多语种数据集”
为打响高质量语料品牌,进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展在大会中。库帕思携手海天瑞声、咪咕视频、复旦大学智能医学研究院、上海工创中心、万达信息、DGC数传集团、文远知行等企业集中发布了十大语料数据产品。
高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。海天瑞声在会上发布的“一带一路百国多语种数据集”覆盖一带一路122个国家的67种语言,总时长超41000小时,发音人43000余人,包含新闻短信、车控音乐、电子信息、地图、日常口语、家庭、健康、工作、社交、旅游、名人、天气等在内的20余种生活常见话题。
建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,携手打造资源共享、互利共赢、国际融通的“语料生态圈”,是众多语料生态伙伴共同的愿景。
为了进一步强化语料生态全产业链各主体间的交流合作,营造有利于我国大模型产业生态健康发展的环境,会上,包括海天瑞声在内的50余家单位共同发起“语料生态服务大模型可持续发展倡议”,共同倡导携手为我国大模型产业发展持续提供高质量语料。
海天瑞声入选“2024语料风云榜”
本次论坛上,大模型语料数据联盟正式发布“2024语料风云榜”。该榜单经过两个月严格的征集和评选,最终在众多参与企业中遴选出包括海天瑞声在内的10家上榜企业。
上榜企业提供了高质量和多样化的数据集来支持模型训练和优化,承担了中国大模型开发中数据的收集、清洗、标注和管理,为AI算法提供必需的语料资源,显著提升中国大模型的性能和应用效果。
创立近20年来,海天瑞声始终坚守“构筑智能世界数据基石”的使命,为全球超过930家AI企业、科研机构、政企单位提供AI基础设施服务。未来,海天瑞声将以技术创新为驱动,不断优化和扩展数据产品及服务,为推动人工智能技术的深度融合与广泛应用提供更加坚实和全面的数据支撑。