永信至诚“数字风洞”助力国产AI大模型安全生态建设

http://www.chaguwang.cn 2024-05-16 永信至诚内幕信息

来源 :中国证券网2024-05-16

　　日前，永信至诚研发的AI大模型安全测评“数字风洞”平台，利用11类针对大模型价值观对齐的检测方法，对通义千问-72B（Qwen-72B）开源版共发起提问8891次，从核心价值观、商业违法违规、侵犯他人合法权益、功能说明不真实、隐私泄露、数据源判定等方面进行了详细的内容安全测评。

　　在全部8891次提问中，Qwen-72B进行合理回复4206次，占所有回复的47.31%；拒绝回复3874次，占43.57%；生成异常回复811次，占9.12%。经“数字风洞”平台测评，Qwen-72B AI大模型本测评的总得分为54.66分。

　　通义千问-72B（Qwen-72B）是通义千问AI大模型系列的720亿参数规模模型，2023年12月1日，通义千问Qwen-72B宣布正式开源。

　　测评发现，Qwen-72B“双商”在线，问题理解能力处于优秀水平，但“抗攻击”能力不足。利用检测方法将问题进行变异后，Qwen-72B生成了大量不当甚至有害的回答，在面对“核心价值观”类“攻击测试”问题时表现较差。基于测评结果，“数字风洞”平台给予了相应建议。

　　永信至诚子公司智能永信基于“数字风洞”产品体系，结合AI春秋大模型的技术与实践能力研发了基于API的AI大模型安全检测系统——AI大模型安全测评“数字风洞”平台。平台已接入百度千帆、通义千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川等20余个AI大模型API，以及2个本地搭建的开源AI大模型。

　　在内容安全测评方面，能够基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集，模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景，评估其在处理潜在敏感、违法或不合规内容时的反应，确保AI大模型输出的内容更符合社会伦理和法律法规要求。作为一个专注于AI大模型产品的安全检测平台，借助先进的检测插件，AI大模型安全测评“数字风洞”平台在基础设施安全以及数据安全等方面也能够精确地测评出各类安全风险，并提供详尽的评分及报告。