新库推荐｜海天瑞声7月数据集上新啦！

http://www.chaguwang.cn 2024-07-02 海天瑞声内幕信息

来源 :海天瑞声2024-07-02

　　海天瑞声上新精品小语种智能语音数据，长焦风景图像数据，多肤色座舱视频数据，助力企业开拓更广泛、更高质量的大模型和AI应用，满足全球用户的多样化需求。

　　阿拉伯语语音识别数据集

　　??产品特色：阿拉伯语以其独特的韵味和重要性，成为全球交流的关键桥梁。海天瑞声阿拉伯语语音识别数据集包含1937名发音人，总时长超1600小时。发音人性别均衡，年龄跨度从18岁到65岁，全面覆盖了不同年龄段的语言特征。

　　包含10种阿拉伯口音，标准阿拉伯语、阿联酋阿拉伯语、沙特阿拉伯语、埃及阿拉伯语、海湾阿拉伯语、科威特阿拉伯语、黎凡特阿拉伯语、约旦阿拉伯语、摩洛哥阿拉伯语、利比亚阿拉伯语。

　　??应用领域：包含日常、教育、金融、医疗、保险、呼叫中心、营销和旅游等20余种领域。无论是用处理复杂的金融交易，还是提供专业的医疗咨询，或是在旅游服务中提供帮助，都能助力模型提供精准的语音识别支持。

　　阿拉伯语语音合成数据集

　　??产品特色：除阿拉伯语语音识别数据，海天瑞声还拥有阿拉伯语的语音合成数据。总时长超50小时，口音包含现代标准阿拉伯语、埃及阿拉伯语、埃及方言、海湾方言以及阿英混等。发音人拥有专业的播音行业背景，音色亲切自然，语速均匀。所有数据都进行了韵律标注。

　　??应用领域：包含日常对话、新闻、金融等多领域的朗读及对话数据。高质量数据将为出海“一带一路”的企业提供数据支撑。

　　小语种自由对话语音识别数据集

　　??产品特色：对话涵盖了家庭、健康、旅游、教育、工作、美食、婚姻、电影、音乐、社交、名人、天气、运动等20多种生活常见话题，提供了全面而丰富的自然语境。发音人性别比例均衡，年龄主要集中在16至45岁之间。

　　小语种自由对话-塞尔维亚语

　　该数据集包含50位发音人的60小时自由对话录音，发音人主要来自塞尔维亚中部。

　　??King-ASR-938 小语种自由对话-塞尔维亚语

　　小语种自由对话-埃塞俄比亚阿姆哈拉语

　　该数据集包含20位发音人的24小时自由对话录音，发音人主要来自埃塞俄比亚中部。

　　??King-ASR-939 埃塞俄比亚阿姆哈拉语

　　小语种自由对话-阿尔巴尼亚语

　　该数据集包含20位发音人的22小时自由对话录音，发音人主要来自地拉那。

　　??King-ASR-942 阿尔巴尼亚语

　　小语种自由对话-印度奥利亚语

　　该数据集包含50位发音人的52小时自由对话录音，发音人主要来自奥里萨邦。

　　?? King-ASR-946 印度奥利亚语

　　长焦风景图像数据集

　　??产品特色：全新的长焦风景图像数据集包含超25,000张图片，以建筑和植物为主题。图像全尺寸无虚化，无论是前景还是背景，放大后都能保持其细节的清晰度。同时，确保同一主体的不同角度图像不超过5张，保证内容的多样性和独特性。

　　采用相机最高质量模式拍摄，4K以上的分辨率确保图像的每个细节和丰富色彩。使用185mm至235mm的焦距，捕捉细节的同时保持了画面的深度和立体感。

　　??应用领域：不仅可以用于多模态大模型的开发，还可以作为创作者输入大模型参考的seed image (种子图片)，该数据集产品将以其卓越的质量和多样性，满足高质量视觉内容的需求。

　　?? King-IM-101 长焦风景图像数据集

　　AD-DMS多肤色座舱视频数据集

　　??产品特色：

　　多肤色座舱采集数据集包含700+人的规模，覆盖了不同人种肤色，细分为黑色、棕色、橄榄色、白皙、自然肤色和非常白皙等肤色类型。

　　覆盖包含近40个国家的参与者，包括瑞士、哥伦比亚、秘鲁、巴西等，年龄范围从18岁到60岁，以中青年为主，为不同年龄段的面部表情和动作提供了丰富的样本。每段视频时长至少25秒，分辨率不低于720P，保证了图像的清晰度和细节。

　　??应用领域：能够为智能座舱场景中的面部识别、情感分析、驾驶员监控等研究和应用提供高质量、多样化的数据支持。让模型可以在多肤色、多国籍、多年龄的广泛场景下更加精准和可靠。

　　?? King-ADV-007 多肤色座舱视频数据集

　　高清舞蹈视频数据集

　　??产品特色：该数据集采集了100,000条平均30秒的舞蹈视频，4K分辨率，包含具有舞蹈基础的成年人和青少年，男女比例均衡。包含单人以及多人，正面、侧面、背面、转身不同角度的高丰富度舞蹈视频。舞蹈类型包括民族舞、爵士、街舞等。

　　??应用领域：

　　该数据集可应用于虚拟人、VR、舞蹈教学、视频创作等领域，推动多模态技术在相应领域的应用和发展。

　　?? King-VD-049 高清舞蹈视频数据集

　　唇动视频数据集

　　??产品特色：该数据集使用高清摄像头采集拍摄208人的唇语音视频数据。室内安静环境采集，模拟多种光线，包括正常光，强光，逆光，弱光等，拍摄距离包括0.5m与1m，主要以0.5为主，约占90%。包含单人和多人采集。

　　采集人以普通话为主，年龄覆盖7~60岁+，以儿童和中青年为主，男女比例均衡。视频录制的同时进行音频采集。