(深互动)岩山科技：公司旗下岩芯数智研发团队出了国内首个非Attention机制大模型—Yan 1.0模型

http://www.chaguwang.cn 2024-03-10 岩山科技内幕信息

来源 :深交所互动易2024-03-10

　　cninfo709628问岩山科技(002195)请问非attention机制大模型通俗的说是啥意思？

　　2024-02-22 00:12:53

　　岩山科技答cninfo709628

　　您好，感谢对公司的关注。Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术，也就是把注意力集中放在重要的点上，而忽略其他不重要的因素。ChatGPT等都利用了Transformer架构，其核心技术之一就是Attention机制。标准的Attention机制的计算复杂度为O（n^2?d）（其中n表示序列长度、d表示特征维度，^2指平方）。标准Attention机制的复杂度随序列长度呈2次方增长。通常来说Transformer架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷，在实际应用中需要的高算力和高成本让不少中小型企业望而却步。针对Transformer架构的上述缺陷、以及不同行业对于高效能、低能耗AI大模型需求的不断增长，公司旗下岩芯数智研发团队意识到从零开始设计大模型的必要性，并推出了国内首个非Attention机制大模型—Yan 1.0模型。Yan架构没有基于Attention机制，也没有基于RNN（指Recurrent Neural Network，循环神经网络）等序列模型，而是通过完全自研的记忆算子及特征关联函数，将计算复杂度从标准Attention机制的O（n^2?d）降低为O（n?d）（线性复杂度），从而提高了Yan架构模型的训练效率和收敛速度。谢谢。

　　2024-03-10 13:35:05