10月25日-27日,瑞芯微于深圳丽思卡尔顿酒店举办机器视觉AI技术专场,与CPSE安博会同期进行。瑞芯微资深产品工程师现场深入介绍及动态演示七大核心技术,包括AI-ISP、超级低功耗、超低码流智能感知编码、多目动态拼接、多模态图文检索、AI大模型端侧部署、AI音频,同时就终端伙伴在各类应用落地过程中遇到的问题现场探讨答疑。
AI-ISP技术,基于瑞芯微视觉方案RV1126、RV1109、RV1106、RV1103,内置两大核心算法分别是微光降噪及智能增强。微光降噪基于人工智能算法,针对视频及图片的画面噪声数据进行深度学习;智能增强通过细节超感知,自适应纹理增强让细节更清晰。从现场的黑光全彩暗箱演示可以明显看出画面细节的清晰度和色彩还原度。
超级低功耗技术,在RV1106及RV1103方案中成熟应用,并已于业内多款知名品牌IPC产品中商用。方案采用多级功耗控制手段,产品功耗更低,快速启动时间比市面上主流方案快30%;支持电池摄像头24小时录像,实现电池常电化目标;具备Preroll(预录)功能,适用于可视门铃产品,预录状态下整机功耗低于5mw。
此次,瑞芯微重点演示了AOV(Always on Video)+AI ISP相结合的方案,在不开补光灯的情况下,真正实现24小时全时录像,有效降低产品功耗。
超低码流智能感知编码,基于RV1106及RV1103方案,具备三大优势,其一,输出码率根据场景复杂度、ROI占比动态波动,可实现提升ROI画质,非ROI画质不变,大幅降低码率节省传输带宽;其二,保证画质主观无损的同时减少码率,经过室外GOP对比实测,在相同场景相同码率的前提下,RV1106/RV1103方案较市场其他方案的画质更优,运动拖尾收敛效果更好;其三,静态场景下自适应节省码率,在1440P 15fps的测试条件下,比常规模式码率节省20倍以上,拍摄画面既高清,视频体积更小,可以节省存储并在弱网环境下确保视频流畅播放。
多目动态拼接技术,基于RK3588、RV1126及RV1106可满足不同的产品需求。RK3588多目拼接方案,具备双24M ISP处理能力,内置瑞芯微自研ISP3.0,升级HDR合成和多级降噪算法,可实现高动态场景的细节表现需求以及星光场景下的夜视效果需求。在动态拼接效果上可实现动态更新顺滑流畅,可视范围更高分辨率更高。在实测画面中肉眼可见效果:行人在经过原有拼缝处画面仍然流畅自然没有割裂感,此外即便将画面多倍数放大,画面中建筑楼宇上的标牌文字及远处建筑边缘仍然清晰可见。
RV1126及RV1106双目拼接方案,RV1126支持双目4M拼8M@25帧,RV1106支持双目2M拼4M@20帧,可提供成熟的产线标定工具。其中RV1106双目拼接方案是市场上性价比极高的优选方案。
多模态图文检索技术,基于RK3588及RK356X方案,在NVR和NAS等视频后端应用上较为广泛,内置特色的智能检索算法:以文搜图和图像OCR功能等提升产品体验。
以图搜图基于强大的智能影像特征识别能力,能帮助用户高效检索图像信息,轻松整理大量照片,快速找到需要的文件;以文搜图利用图文多模态特征融合技术实现文字搜图功能,用户只需输入简单的自然语言文本描述,包括如图像的主题、内容、风格等信息,即可快速查找图像库中符合文本描述的图像;图像OCR功能,基于深度学习的文本定位识别算法,能够轻松提取识别各种复杂的场景中的文字信息,例如模糊图像、倾斜文字、光照不均匀等场景的图像OCR功能。
AI大模型端侧部署,基于RK3588芯片,其中RKNPU对大模型主流结构Transformer进行了持续优化,助力基于Transformer大模型在端侧部署。大语言模型能够根据用户输入的上下文信息回答各类问题,包括历史、科学和文化等。
例如,基于开源1.4B中文对话式大语言模型,在单块RK3588上能够高效运行,在高精度条件下文本生成速度达到每秒6tokens,可以为用户提供流畅自然的聊天体验。基于开源的LLaMa65B模型,其参数高达650亿,具有更强劲的文本生成能力,通过级联64块RK3588能够成功将其在端侧部署运行。
瑞芯微AI音频方案支持提供语音前处理适配后端识别,也可以适配前处理修改后端识别模型,基于RK3562、RK3308、RK2108、RV1126、RV1106在不同的智能化场景中广泛应用。
瑞芯微方案可适配多款自研及第三方合作伙伴的音频算法包括AI智能音频降噪、AI异声检测、自动啸叫抑制、自研音效处理、ASR语音识别控制、多维度AI实现(CPU/NPU/DSP)等,目前已在各类产品形态中落地,如IPC、视频会议一体机、行车记录仪、智能录音笔、会议拾音器等。
瑞芯微持续深耕机器视觉领域,基于用户需求不断进行核心技术的研发及创新,赋能各行业数智化升级。诚邀终端伙伴们莅临瑞芯微机器视觉技术专场,针对不同场景、数据、项目选型做深入探讨,加速产品落地进程。