海天瑞声上新精品小语种智能语音数据,长焦风景图像数据,多肤色座舱视频数据,助力企业开拓更广泛、更高质量的大模型和AI应用,满足全球用户的多样化需求。
阿拉伯语语音识别数据集
??产品特色:阿拉伯语以其独特的韵味和重要性,成为全球交流的关键桥梁。海天瑞声阿拉伯语语音识别数据集包含1937名发音人,总时长超1600小时。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。
包含10种阿拉伯口音,标准阿拉伯语、阿联酋阿拉伯语、沙特阿拉伯语、埃及阿拉伯语、海湾阿拉伯语、科威特阿拉伯语、黎凡特阿拉伯语、约旦阿拉伯语、摩洛哥阿拉伯语、利比亚阿拉伯语。
??应用领域:包含日常、教育、金融、医疗、保险、呼叫中心、营销和旅游等20余种领域。无论是用处理复杂的金融交易,还是提供专业的医疗咨询,或是在旅游服务中提供帮助,都能助力模型提供精准的语音识别支持。
阿拉伯语语音合成数据集
??产品特色:除阿拉伯语语音识别数据,海天瑞声还拥有阿拉伯语的语音合成数据。总时长超50小时,口音包含现代标准阿拉伯语、埃及阿拉伯语、埃及方言、海湾方言以及阿英混等。发音人拥有专业的播音行业背景,音色亲切自然,语速均匀。所有数据都进行了韵律标注。
??应用领域:包含日常对话、新闻、金融等多领域的朗读及对话数据。高质量数据将为出海“一带一路”的企业提供数据支撑。
小语种自由对话语音识别数据集
??产品特色:对话涵盖了家庭、健康、旅游、教育、工作、美食、婚姻、电影、音乐、社交、名人、天气、运动等20多种生活常见话题,提供了全面而丰富的自然语境。发音人性别比例均衡,年龄主要集中在16至45岁之间。
小语种自由对话-塞尔维亚语
该数据集包含50位发音人的60小时自由对话录音,发音人主要来自塞尔维亚中部。
??King-ASR-938 小语种自由对话-塞尔维亚语
小语种自由对话-埃塞俄比亚阿姆哈拉语
该数据集包含20位发音人的24小时自由对话录音,发音人主要来自埃塞俄比亚中部。
??King-ASR-939 埃塞俄比亚阿姆哈拉语
小语种自由对话-阿尔巴尼亚语
该数据集包含20位发音人的22小时自由对话录音,发音人主要来自地拉那。
??King-ASR-942 阿尔巴尼亚语
小语种自由对话-印度奥利亚语
该数据集包含50位发音人的52小时自由对话录音,发音人主要来自奥里萨邦。
?? King-ASR-946 印度奥利亚语
长焦风景图像数据集
??产品特色:全新的长焦风景图像数据集包含超25,000张图片,以建筑和植物为主题。图像全尺寸无虚化,无论是前景还是背景,放大后都能保持其细节的清晰度。同时,确保同一主体的不同角度图像不超过5张,保证内容的多样性和独特性。
采用相机最高质量模式拍摄,4K以上的分辨率确保图像的每个细节和丰富色彩。使用185mm至235mm的焦距,捕捉细节的同时保持了画面的深度和立体感。
??应用领域:不仅可以用于多模态大模型的开发,还可以作为创作者输入大模型参考的seed image (种子图片),该数据集产品将以其卓越的质量和多样性,满足高质量视觉内容的需求。
?? King-IM-101 长焦风景图像数据集
AD-DMS多肤色座舱视频数据集
??产品特色:
多肤色座舱采集数据集包含700+人的规模,覆盖了不同人种肤色,细分为黑色、棕色、橄榄色、白皙、自然肤色和非常白皙等肤色类型。
覆盖包含近40个国家的参与者,包括瑞士、哥伦比亚、秘鲁、巴西等,年龄范围从18岁到60岁,以中青年为主,为不同年龄段的面部表情和动作提供了丰富的样本。每段视频时长至少25秒,分辨率不低于720P,保证了图像的清晰度和细节。
采集信息 |
详情 |
白天 |
顺光、逆光、侧光、树荫阳光、阴天、雨天、雪天 |
夜晚 |
车内光源、路灯光照、会车远近光 |
表情动作 |
睁眼、张闭嘴、夸张张闭嘴、夸张表情、歪嘴、挤眉弄眼等 |
其他动作 |
吸烟、喝水、使用手机、手部遮挡等 |
配饰 |
均戴有配饰,包括眼镜、帽子等 |
??应用领域:能够为智能座舱场景中的面部识别、情感分析、驾驶员监控等研究和应用提供高质量、多样化的数据支持。让模型可以在多肤色、多国籍、多年龄的广泛场景下更加精准和可靠。
?? King-ADV-007 多肤色座舱视频数据集
高清舞蹈视频数据集
??产品特色:该数据集采集了100,000条平均30秒的舞蹈视频,4K分辨率,包含具有舞蹈基础的成年人和青少年,男女比例均衡。包含单人以及多人,正面、侧面、背面、转身不同角度的高丰富度舞蹈视频。舞蹈类型包括民族舞、爵士、街舞等。
??应用领域:
该数据集可应用于虚拟人、VR、舞蹈教学、视频创作等领域,推动多模态技术在相应领域的应用和发展。
?? King-VD-049 高清舞蹈视频数据集
唇动视频数据集
??产品特色:该数据集使用高清摄像头采集拍摄208人的唇语音视频数据。室内安静环境采集,模拟多种光线,包括正常光,强光,逆光,弱光等,拍摄距离包括0.5m与1m,主要以0.5为主,约占90%。包含单人和多人采集。
采集人以普通话为主,年龄覆盖7~60岁+,以儿童和中青年为主,男女比例均衡。视频录制的同时进行音频采集。