让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

你的位置:乐天体育_乐天体育app_乐天体育网页官网登录 > 关于我们 > 乐天体育网页 特斯联AI研发毁坏:基于语义对齐多级表征学习的指定视频主意分割

乐天体育网页 特斯联AI研发毁坏:基于语义对齐多级表征学习的指定视频主意分割

时间:2022-05-23 22:34 点击:74 次

  图像分割时间是计较机视觉领域的伏击谋划场所,亦然该领域其他应用的一个伏击前期体式。近些年来,跟着深度学习时间的安谧深切,图像分割时间有了突飞大进的发展,尤其在场景物体分割、人体配景分割、三维重建等时间在无人驾驶、增强现实等城市数字化领域得到了世俗应用。而近日,特斯联科技集团首席科学家兼特斯联海外总裁邵岭博士及团队建议具有语义对齐的多级表征学习框架搞定指定视频主意分割(Referring Video Object Segmentation,RVOS)中存在的问题,在该领域变成科研毁坏,且干系谋划后果(标题为:Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能领域顶级会议CVPR(海外计较机视觉与形式识别会议)收录。

  总体而言,该项谋划毁坏可详尽为三个方面:当先,建议了一个基于多级表征学习的RVOS新框架。它通过更丰富、更结构化的视频表征,摈弃了单帧建模的局限性,保证了愈加精确的话语-视觉语义对齐;第二,引入了动态语义对齐(DSA),它在匹配话语语义与不同级别的视觉表征时选择了更灵验的自合适对齐;第三,该次第在两个具有挑战性的数据集上收场了引人看重的发扬,包括Refer-DAVIS17和Refer-YouTube-VOS。值得留心的是,关于Refer-DAVIS17上的J,该次第比最佳的单帧建模次第取得了6.6%的权贵进步,同期在两个数据集上收场了53.2FPS的高推理速率。

  指定视频主意分割(RVOS)是一种世俗应用于视频裁剪、造谣现实和人机交互的AI时间,旨在基于特定当然话语抒发,从视频中议论最干系的视觉主意。与成例的无监督或半监督视频主意分割比较,RVOS需要收场话语文本和视频执行之间的跨模态相识,而不是通过视觉权贵性或重要帧标注来定位主意。

  帧级建模两大局限性致RVOS精确度较低

  咱们不错通过人类领路系统苟简相识跨模态数据的含义。当人类在话语的带领下识别一个主意时,频繁会选择三个体式:1)知悉主意的外观和场所(即基于帧),2)翻看多帧知悉主意的畅通景况(即基于视频),3)将更多的留心力转动到禁锢或较小的主意上(即基于主意)。

  当今,大大量次第仅仅苟简地将基于图像的次第应用于视频跨模态相识。它们约略使用指定图像定位(referring image localization)来生成主意界限框动作提案,约略径直使用指定图像分割(referringimage segmentation)。可是,与人类领路系统比较,这些帧级建模次第存在两个局限性:忽略万古信息,短缺对空间权贵主意的原谅。

  前述局限性导致了视觉和话语两种模态之间的错位,进而产生不准确的分割舍弃。例如来说,如图1所示,当咱们给定一个输入视频偏激对应的描画,比如“一只狮子正在向右行走”时,RVOS的主意是从视频平分割出畅通的狮子。但由于视频中有多个狮子,仅运用单帧外观信息无法识别出正确的狮子(如图1(b)所示)。在这里,话语所指的主意具巧合刻上的畅通景况,因此需要知悉多帧来识别特定动作。此外,“狮子卧在高高的岩石上”指的是被禁锢的小狮子。可是,帧级建模只原谅每一帧的全局语义,而忽略了一些更伏击的、更具有代表性的视觉区域,这也会导致指向差错的主意(如图1(c)所示)。

  图1.不同建模之间的视觉比较。苟简的帧级建模难以识别畅通主意(b)或被禁锢的小主意(c)。比较之下,多级建模提供了一种辘集面目来运用万古信息和空间的权贵痕迹进行跨模态匹配,从而提供更准确的舍弃(a)(d)

  具有语义对齐的多级表征学习框架

  在这么的配景下,邵岭博士团队建议了全新的多级学习框架来搞定RVOS问题。该模子当先对视频执行进行细粒度分析,以收场多粒度的视频表征:

  在视频粒度上,建议使用跨帧计较对通盘视频的万古依赖进行建模,让视觉表征得以捕捉主意的畅通或动态场景信息。

  在单帧粒度上,选择自留心力机制整合帧内信息,从而描画通盘图像中的全局执行。

  在主意粒度上,借助主意检测器来增强前程和配景的可分辨性,搞定禁锢和小主意的情况。

  在收场多级(或多粒度)视觉表征之后,团队建议动态语义对齐(DSA),使它们与话语特征交互。为了灵验捕捉特定粒度的话语信息,团队当先字据不同的视觉痕迹永诀生成对应的基于视觉粒度的全局话语语义。再将生成的视觉话语特征与相应的视觉特征相衔尾,为所指主意提供特定粒度下的主意表征。临了,团队整合多粒度下的主意表征和界限信息,使用界限感知分割(BAS)带领统统帧的分割议论。

  具有语义对齐的多级表征学习经实验考证,效果优于其他竞争次第

  团队亦共享了基于前述搞定决策与两个流行的RVOS数据集进行的定量及定性对比实验,即:Refer-DAVIS17和Refer-YouTube-VOS。

   Refer-DAVIS考证集:在用Refer-DAVIS进行试验之前,团队在大范围的Refer-YouTube-VOS试验围聚对模子进行预试验,并在Refer-DAVIS考证围聚对模子进行了性能测试。如表格1所示,在沟通的“仅进行预试验”情况下,建议的次第与最新的模子URVOS比较有权贵的性能进步(J:+5.8%,F:+6.0%)。在Refer-DAVIS试验集里对预试验模子进行微调后,建议的次第在所谋划上都大大优于统统竞争次第(与URVOS比较,J:+6.6%,F:+6.1%)。此外,团队还提供了其模子在指定图像分割数据集RefCOCO上进行预试验的舍弃,其得分高于URVOS和RefVOS等基于帧的次第。

  表格1.Refer-DAVIS17考证集的定量评估,含区域相通度J,界限精确度F,J&F的平均值

   Refer-YouTube-VOS考证集:咱们不错进一步知悉新次第在Refer-YouTube-VOS考证集上的性能。如表格2所示,其模子在所谋划上都权贵优于SOTA。与URVOS比较,该模子将区域相通度J提高了3.1%,轮廓精度F提高了1.8%。这一次第在精度上也取得了更高的分数(例如,prec@0.8:+5.0%,prec@0.9:+4.8%)。以上两个数据集的舍弃均标明了具有语义对齐的多级表征学习的优胜性。

  表格2.Refer-YouTube-VOS考证集的定量评估,含区域相通度J,界限精确度F,J&F的平均值,和告捷百分比(prec@X)

  此外,论文还共享了其次第的一些典型视觉舍弃(如图2所示)。在第一个序列中,录像机的迁徙让视频中的女孩出现了尺寸变化。在第二个序列中,蓝色木车上前迁徙,由于外观变化很大,难以进行准确忖度。第三和第四个序列来自统一个视频,但由于局部禁锢和配景中视觉上相通的对象而更具挑战性。尽管如斯,该模子已经告捷地分割出统统的主意。总体而言,成绩于在视觉—话语相识历程中议论了多级表征,建议的模子得到了出色的指定视频主意分割舍弃。

  图2.Refer-DAVIS17考证集和Refer-YouTube-VOS考证集的定性舍弃。前四个序列代表指定视频主意分割舍弃,临了两个序列是权贵主意议论舍弃

  除指定视频主意分割舍弃外,著述还在图2中提供了一些权贵主意议论舍弃。不错看出,统统主意议论都带有了了的界限,包括被禁锢的和小的主意,这标明权贵主意的生成不错提供重要的先验主意信息。

  总体而言,在这项最新谋划中,邵岭博士团队建议了一种新颖的多级表征学习框架来处理RVOS任务,通过编码视频、单帧和主意级语义,提供了一个巨大且信息丰富的视觉表征;通过引入动态语义对齐机制,对不同模态不错进行自合适交融。这一谋划毁坏不错进一步进步视频主意分割的精确度及效用乐天体育网页,使相适时间得以高效应用于城市中包括安防、救急等场景。

服务热线
官方网站:www.365jz.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:2852320325
邮箱:w365jzcom@qq.com
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号

Powered by 乐天体育_乐天体育app_乐天体育网页官网登录 RSS地图 HTML地图


乐天体育_乐天体育app_乐天体育网页官网登录-乐天体育网页 特斯联AI研发毁坏:基于语义对齐多级表征学习的指定视频主意分割

回到顶部