2024年3月15日岩山科技(002195)发布公告称公司于2024年3月15日接受机构调研,长江证券路畅、甬兴证券童非、东吴证券王紫敬王世杰张文佳、投资者参与。
具体内容如下:
问:公司在类脑人工智能、脑机接口领域是如何布局的?
答:类脑人工智能的目标是利用最新的脑科学与人工智能技术及工具,通过破译生物大脑的结构和功能,绘制大脑功能、结构和信息处理图谱,从微观、介观和宏观水平加深对生物大脑工作原理的理解,并构建模拟生物大脑的人工神经网络系统,最终达到“认识脑、保护脑和模拟脑”的目标。脑机接口技术是类脑人工智能研究的一个细分领域,旨在打破大脑与外界信息交互瓶颈,是实现人机交互、人机交融的必由之路。
近期国内外脑机接口技术不断取得新进展,岩思类脑团队很早之前就已经认识到随着材料科学、信号处理、医疗设备的不断进步,可以采集到的脑电信号的数据量越来越庞大,如何从海量的数据中提取出所需颗粒度的信息,其中的脑电解码算法是脑机接口系统中急需突破的关键。
基于上述思考,岩思类脑跳过电极、芯片等硬件的研发,直接提前布局脑电大模型的构建和研发,从而可以适应现在及将来非侵入式、侵入式等多种方式获得的海量脑电神经网络数据,以脑电大模型为硬件赋能,从而达成实时、精准、高效的人机交互系统。因此,岩思类脑研究院当前重点开展大脑内部状态解析与调控、及脑电大模型的研究。
问:目前岩思类脑已经开始尝试进行脑电大模型的预训练,请与传统大数
答:据相比,脑电大数据有哪些特点?与语言大模型类比,脑电大模型有哪些区别?与传统大数据相比,脑电大数据训练数据获取难度高,一般临床医学上通过侵入式方式获得的脑电数据更加精准;脑电大数据的时空复杂度高,大脑是一个三维空间,脑电数据既包含大脑皮层空间位置信息,又是时间维度上的连续信号;脑电大数据的预处理难度更大,需要按神经系统特性规律进行合理分割后才能token化。
与自然语言大模型类比,脑电大模型需要实现更高自由度、更细颗粒度的解码效果以及极强泛化性能,以实现跨样本、跨物种模型泛化移植的效果。当前侵入式脑机接口没有大范围应用的瓶颈之一在于模型的泛化性比较差,通常只是建立针对单个病人的脑电数据模型。但是脑电大模型可以通过采集海量的临床数据,提取其底层最本征的表达,进行脑机接口解码,未来目标包括实现在不同样本甚至不同物种之间进行移植。
问:RockAI(岩芯数智)为什么要从零开始设计非Attention机制的YAN架构,而不是使用ChatGPT、LLaMA、PaLM等Transformer架构的大模型进行设计或调整?
答:ttention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术,也就是把注意力集中放在重要的点上,而忽略其他不重要的因素。ChatGPT等都利用了Transformer架构,其核心技术之一就是ttention机制。标准的ttention机制的计算复杂度为O(n^2*d)(其中n表示序列长度、d表示特征维度,^2指平方)。标准ttention机制的复杂度随序列长度呈2次方增长。通常来说Transformer架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷,在实际应用中需要的高算力和高成本让不少中小型企业望而却步。针对Transformer架构的上述缺陷、以及不同行业对于高效能、低能耗I大模型需求的不断增长,公司旗下岩芯数智研发团队意识到从零开始设计新架构的必要性,并于2024年1月推出了国内首个非ttention机制大模型—Yan1.0模型。
问:从大模型解码层结构来看,Yan架构与Attention机制模型区别如何?
答:图1基于多头ttention机制的Transformer模型结构
图2Yan架构的大模型解码层结构
图1为基于多头ttention机制的Transformer大模型结构,标准的ttention机制的计算复杂度为O(n^2*d),其复杂度随序列长度呈2次方增长。这也就意味着,当输入序列长度增加时,计算成本和显存需求会快速增长。从图2的Yan架构大模型解码层结构可以看到,Yan架构没有基于ttention机制,也没有基于RNN(指RecurrentNeuralNetwork,循环神经网络)等序列模型,而是通过完全自研的记忆算子及特征关联函数,将计算复杂度从标准ttention机制的O(n^2*d)降低为O(n*d)(线性复杂度),从而提高了Yan架构模型的训练效率和收敛速度。因此,Yan架构模型具有训练速度快、推理成本低、记忆能力强等优势。
问:对相同参数量级的Yan模型和Transformer架构的大模型进行对照实验后,实验结果如何,是否能验证Yan架构的优势?
答:RockI对相同参数量级的Yan1.0模型和Transformer(对照实验中采用的Transformer是基于HuggingFaceLLaM的标准结构,同时开启了flashattn的支持)架构模型分别用1,000万条中英平行语料,基于同样软硬件环境的NVIDI00服务器训练以及同样的迭代次数下进行了对照试验
(1)训练效率方面,在上述对照实验环境下Yan1.0模型的损失值要低于Transformer架构的LLaM模型。在训练集上,训练数据收敛到相同的loss(loss=3.0)时,Yan1.0模型仅需要1.5小时,而LLaM模型却花费10.5小时,因此Yan1.0模型的训练效率更高。
(2)推理准确率方面,在上述对照实验环境下Yan1.0模型比LLaM模型在训练集上的预测准确率高出17%、在验证集上的预测准确率高出13%。
(3)显存占用方面,基于同样的参数量级在单张NVIDIRTX409024G显卡上,当输出token的长度超出2,600时,LLaM模型会出现显存不足,进而无法完成推理;Yan1.0模型的显存使用始终稳定在14G左右,可以进行正常推理。Yan1.0模型的显存占用及成本比LLaM模型更低。
(4)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与LLaM模型相比,Yan1.0能够更快的达到更好的收敛,以及更高的准确率。
问:Yan模型能够部署在办公电脑上吗?
答:原生结构的Yan架构模型,在零压缩、零裁剪的情况下,依然能够流畅运行于主流消费级CPU设备,例如经训练后的模型可以部署在配置了Inteli7、i5CPU的笔记本电脑或台式机,以及M系列芯片的MacBookPro等。
对比之下,70亿(7B)参数量的Transformer却无法在上述CPU设备上直接运行,通常Transformer需要经过8bit甚至4bit的量化后才能正常运行,这不可避免的带来了推理精度的损失。
问:OpenAl发布了首个文生视频模型Sora,请贵公司是否也布局推进相关的新技术?
答:2024年1月RockI发布的Yan1.0大模型以自然语言为主,尚不支持文生视频功能。目前RockI正在研发Yan2.0大模型,Yan2.0将会融合文字、音频、视频等多模态,以应用于更广泛的业务。Yan2.0模型预计将于2024年下半年推出,具体推出时间请以后续岩芯数智的发布为准。
问:未来Yan模型有哪些应用潜力,商业化构想如何?
答:Yan架构的模型也是通用大模型的一种,可适用于当前所有通用化大模型的商业化应用场景。Yan架构模型现阶段商业化的重点主要在尝试为企业客户提供本地化应用和部署,满足客户对于数据隐私、安全及低成本部署上的需求,目前尚未形成规模收益。
未来,针对toB垂直领域,RockI希望能在低消耗、显存受限的情况下,打造基于Yan架构的专业生产力工具,解决更多低算力模型场景应用,如在网络连接不稳定或离线使用场景的应用等。
问:请介绍一下公司拟收购的智能驾驶企业Nullmax纽劢科技的最新进展情况。
答:公司拟增资并收购Nullmax(Cayman)Limited部分股权的事项目前正在向商委、外汇管理局等主管部门办理境外投资ODI审批手续中。相关进展请以公司公告为准。
岩山科技(002195)主营业务:互联网信息服务业务、人工智能业务和多元投资业务。
岩山科技2023年三季报显示,公司主营收入4.31亿元,同比下降15.08%;归母净利润3.29亿元,同比上升1.19%;扣非净利润3.13亿元,同比上升3.62%;其中2023年第三季度,公司单季度主营收入1.38亿元,同比下降9.86%;单季度归母净利润6952.46万元,同比下降31.85%;单季度扣非净利润5821.6万元,同比下降39.77%;负债率3.08%,投资收益1.18亿元,财务费用-1.53亿元,毛利率55.28%。
该股最近90天内无机构评级。融资融券数据显示该股近3个月融资净流出2.31亿,融资余额减少;融券净流出382.38万,融券余额减少。