chaguwang.cn-查股网.中国
查股网.CN
云从科技(688327)内幕信息消息披露
 
个股最新内幕信息查询:    
 

【已投项目】云从科技:视觉大模型再突破 4D点云视频进入自监督学习时代

http://www.chaguwang.cn  2023-08-02  云从科技内幕信息

来源 :中泰仁和基金2023-08-02

  近日,计算机视觉国际大会ICCV 2023公布了论文接收名单。作为计算机领域世界顶级的学术会议之一,ICCV备受关注。云从科技及联合研究团队的论文《Masked Spatio-Temporal Structure Prediction for Self-supervised Learning on Point Cloud Videos》成功入选。

  论文简介:

  

  01

  简介

  运动是位置随时间变化的一种物理现象。静态点云提供了3D空间位置信息,因此随着时间的推移而演变的4D点云视频可以描述现实世界中的时空运动,有效地理解点云视频可以显著的提升智能体与环境的交互能力。目前,社区内已经涌现出了许多优秀的点云视频理解方法,包括视频分类和视频语义分割等。然而,这些方法大多数都是基于监督学习的,需要付出极大的努力来标注海量数据。此外,仅通过分类或分割进行学习可能会使模型过于关注任务本身,而忽略了点云视频自身所蕴含的时空结构细节。

  为了学习更具泛化性的表征,我们提出了一种点云视频的自监督学习方法。自监督学习使用来自数据本身的监督信号,使模型能够从大量数据中学习表征。这对于识别和理解数据中更微妙的模式非常重要。尽管自监督学习已经应用于图像、视频和静态点云,但在例如点云视频的4D信号上尚未得到推广。

  02

  方法

  

  图1 MaST-Pre的架构示意图

  在本文中,我们提出了一种基于掩码自编码器的时空结构预测框架(MaST-Pre),用于点云视频自监督预训练,其主要结构如图1所示。MaST-Pre的主体是基于掩码策略设计的,该策略已在各种应用中被证明是有效的。例如,结构化的图像可以很容易地被分割成多个Patch来进行掩码,而在视频上,这些Patch可以扩展到Patch-Tube。对于非结构化的静态点云,可以使用基于局部球形支持域的掩码策略。然而,空间内点云的不规则性和时间上逐点不对齐性使得点云视频需要更精细的掩蔽策略。而我们的方法是使用基于Point-Tube的掩码策略。其中,Point-Tube可以被看作是空间局部支持域在短时窗口内的扩展。

  

  图2 Temporal Cardinality Difference

  在基于Point-Tube的掩码策略下,MaST-Pre采用两个自监督任务分别捕获点云视频的外观和运动结构。为了学习外观结构,MaST-Pre被要求从可见的点中预测不可见部分的原始输入。而为了捕获运动信息,我们提出了时间基数差(Temporal Cardinality Difference)特征,如图2所示。它可以在线计算,并无需额外参数。

  局部邻域内的点集的基数(Cardinality)可以用来反映静态点云的基本结构(例如,线、边和平面等)。我们将其扩展到时间维度,以便它可以对点云视频的运动进行建模。直观上来说,时间基数差表征了短时间内点的流动情况。因此,推理被掩码的Point-Tube的时间基数差有助于MaST-Pre学习富含运动信息的表征。

  03

  分析

  

  图3 Temporal Cardinality Difference特征的样例

  我们在图3中可视化了时间基数差的多个样例,以证明其在建模运动中的有效性。我们展示了三个典型的动作,包括抬手,放下手和向前踢腿,每种动作由上下两个示例组成。如图3(a)所示,两个“抬手”动作的时间基数差反映出了极其相似的运动模式。具体来说,随着时间的推移,第一象限和第七象限中的点会大量流出。反映在特征向量上,即第一个和第七个特征区间是最小的两个负值。同时,时间基数差在“放下手”(图3(b))和“向踢前”(图3(c))两个动作中也分别表现出类似特性。特别是,“抬手”和“放下手”之间的时间基数差近似相反,这反映了其在运动学建模中的有效性。

  此外,我们还在图4中给出了点云视频的重建结果。图4展示了四种基于点云视频的动作,并以动图的形式呈现。对于每个动作样本,左侧为原始点云视频真值,右侧为75%掩码率下自编码器的重建结果。

  

  图4 点云视频的重建结果可视化

  联系我们

  Contact Us

  ? 010-59486672

  ?www.zhongtairenhe.com

  ▼北京市朝阳区永安东里16号CBD国际大厦16层1611室

  北京中泰仁和基金管理有限公司(中泰仁和)

  成立于2013年,注册资本1亿元,是经中国基金业协会备案的合格股权投资机构(登记编号:P1019150)。公司专注于半导体集成电路、人工智能、智能制造、能源环保、TMT、大健康等领域,开展扩张期优质企业股权投资、Pre-IPO项目投资等业务,已投资企业数十家,超过10家企业已成功在国内或海外上市、挂牌。并实现数只基金退出。

  中泰仁和拥有一支40余人的投融资团队,分布于北京、长沙、上海和广州。团队核心成员均来自国内外知名的PE基金、券商、信托公司和大型跨国公司等机构,具有专业的股权投资、并购重组、企业管理及境内外资本市场运作能力。完善的风险管理体系、专业的行业研究能力以及良好的激励机制,为公司的长期健康发展奠定了坚实的基础。

  这些年,我们也凭借优质的投后服务和产业整合能力,从业务资源和产业深度上为被投企业赋能,实现深度产融互动。助力企业实现长期增值和可持续发展,由优秀走向卓越,共赢未来,持续为社会和股东创造价值。

  顺丰速运(002352)(快递物流龙头)

  微众银行(国内首家民营银行和互联网银行)

  360金融(QFIN)(数据驱动、AI赋能的第三方金融科技平台)

  中诚信国际(中国本土评级事业的开拓者)

  容百锂电(688005)(高科技新能源材料行业-锂电池正极材料)

  京东物流(02618.HK)(中国领先的供应链解决方案及物流服务商)

  中微半导体(688012)(中国领先的刻蚀设备和化学薄膜设备制造商)

  盛趣游戏(002602)(全球领先的网络游戏公司)

  澜起科技(688008)(国际领先的数据处理及互连芯片设计公司)

  天智航(688277)(科创板骨科手术机器人“第一股”)

  金蝶医疗(互联网医疗倡导者)

  云从科技(计算机视觉识别AI四小龙)

  明略科技(企业级认知智能服务平台)

  晋大科技(先进无机抗菌材料研发生产“专精特新”企业)

  博奥晶典(国内基因检测与生物芯片领域龙头企业)

  成都中建材(碲化镉薄膜发电玻璃龙头)

  长鑫存储(大陆地区规模最大、技术最先进的DRAM设计制造一体化企业)

  利来工业智造(汽车轻量化、铝制车身供应链龙头企业)

  正力新能(新能源锂离子电池头部企业)

  

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网