以三维模型草图检索为基础的时空信息联合嵌入技术

2022-05-12 版权声明 我要投稿

摘要:现有的基于草图的三维模型检索工作往往将数据视为静态输入,并使用卷积神经网络进行特征提取,忽略了数据的动态属性,造成了有益信息的部分丢失,进而影响了以此为基础的检索效果.为解决这一问题,提出一种基于时空信息联合嵌入的端到端三维模型草图检索算法.首先,将草图表征为动态绘制序列,体现其绘制过程中所包含的时序信息;将三维模型表征为多视图序列,体现视图间的位置关联;然后,构建包含静态空间特征提取和动态时序特征提取的端到端双流网络,结合三元中心度量学习建立跨域数据的联合时空特征嵌入,充分捕捉草图和三维模型所包含的静态、动态特征,缩小跨域数据的差异性,提高检索的准确率;最后,在标准公开数据集SHREC2013和SHREC2014上进行实验,与现有工作相比获得了较高的准确率,验证了所提算法的可行性及有效性.

关键词:三维模型检索;基于草图的检索;双流网络;时空特征;度量学习;深度学习

随着计算机辅助设计与计算机视觉的快速发展,三维物体作为一种重要的数据类型成为继声音、图像与视频之后信息的主要载体之一,并在工业制造、虚拟现实和增强现实等领域有着广泛的应用.如何有效地识别和检索三维模型是诸多应用的研究基础,已成为相关学者关注的课题,出现了一系列研究成果[1-2].

手绘草图易于构建,非常直观,且不受地域、专业、年龄等外在因素影响,在人类历史中一直被当作一种非常有效的交流手段.近年来,随着便携式触屏设备的普及,手绘草图数据变得易于获取,基于手绘草图的三维模型检索成为新的研究方向.然而,三维模型和草图之间存在着巨大的域间差异性:三维模型数据是现实世界的客观表征或虚拟世界的数字化模型,具有表征准确、具体,数据维度高、非结构化等特性;而草图是用户的一种主观表达,往往由表征物体全局属性的简单线条组成,强调整体结构和突出特点,具有稀疏性和全局性等特性.因而,基于手绘草图的三维模型检索仍然非常困难.

传统的基于手绘草图的三维模型检索算法往

往利用剪影图和外轮廓线图将三维模型表征为二维线条图,然后利用人工设计的特征编码算法,如弥散张量[3]、费舍编码[4]及基于局部特征的多尺度描述[5]等表征三维模型和草图,最后在特征空间利用某种相似评价模型完成距离度量,实现草图到三维模型的检索.由于三维模型和草图域间差异巨大,三维模型又非常复杂,这类基于人工设计特征的算法往往无法客观地捕捉三维模型和草图的本质特征,因而整体检索准确率偏低.

与传统算法相比,深度学习可以让机器自动学习被表征对象的特征描述符,广泛地应用于计算机视觉领域.相应地,在基于草图的三维模型检索中也出现了一系列优秀的工作[6-13],并取得了不错的检索效果.但不可忽视的是,目前的三维模型的草图检索仍然面临一些难题.(1)与图像不同,手绘草图是一个动态序列,现有算法往往利用卷积神经网络(convolutionalneuralnetworks,CNN)针对草图绘制的最终结果提取描述符,忽略了手绘草图包含的丰富的时序信息[14].(2)三维模型具有复杂性,现有算法往往将三维模型表征为多个独立视图,通过多通道完成特征提取,忽略了视图之间的关联关系.以上2个问题相互作用,严重影响了三维模型草图检索的整体性能.

针对以上问题,本文提出一种基于时空信息联合嵌入的端到端三维模型草图检索算法.

将草图和三维模型表征为图像序列,并引入残差网络和长短期记忆网络(longshort-termmemory,LSTM),建立时空特征提取双流网络,同时捕捉草图和三维模型的静态空间特征和动态时序特征,更加全面、准确地刻画被表征对象.

提出一种基于时空信息联合嵌入的端到端三维模型草图检索框架,结合具有时空特征提取能力的双流网络和三元度量学习建立跨域数据的联合时空特征嵌入,缩小跨域数据的差异性,提高检索准确率.

在公共数据集SHREC2013和SHREC2014上实验验证了本文算法的有效性.

相关工作

通常,基于深度学习的三维模型草图检索包括跨域数据的初始表征、特征嵌入和相似度计算.相似度计算和传统算法类似,本文不再赘述.本节将围绕跨域数据的初始表征和特征嵌入,简单梳理基于深度学习的三维模型草图检索算法.

跨域数据的初始表征

在三维模型草图检索中,研究者往往将草图看做一幅静态图像,使用经典的CNN对草图进行特征表示,并提取草图初始特征,如AlexNet[6]和ResNet[7].由于CNN本是针对自然图像设计的,旨在获取图像中有判别性的纹理特征;而手绘草图较为抽象,仅由简单线条构成,缺乏颜色和纹理信息,因此仅使用CNN对草图进行特征提取效果还不够理想.此外,草图的绘制是一个动态过程,仅使用CNN的算法往往忽略了草图绘制过程中包含的时序信息,造成有益信息的损失,这也进一步影响了草图特征提取的效果.

考虑三维模型的非结构化特性,在三维模型草图检索中,研究者往往将三维模型转换为一个或一组代表性视图,以降低跨域匹配的难度.刘玉杰等[6]提出基于视图信息熵选择一张代表性视图表征三维模型,在保证检索效果的同时,简化了网络结构.由于草图并不对应三维模型某一个固定视角的视图,因而最佳视图的构建是极其困难的.为此,Wang等[8]提出针对竖直摆放的三维模型随机选择2个大小间隔超过45°的投影视图表征三维模型;Xie等[9]提出使用多张视图表征三维模型,并最终采用瓦瑟斯坦重心融合多视图特征.以上算法是三维模型的多视图表征的有益尝试,取得了良好效果.然而,三维模型的多个视图之间是存在位置次序的,而现有算法独立看待每个视图,忽略了这种相关性,势必造成一定程度的信息损失.

本文针对草图和三维模型表征中存在的问题,提出一种将CNN和循环神经网络(recurrentneural的跨域数据嵌入,取得了很好的效果.然而,基于tripletloss的算法需要考虑每一对正负样本组合,网络训练费时且困难.本文引入triplet-centerloss[15],在减少计算复杂度的同时,确保类内距离最小化,类间距离最大化.

本文算法

如图1所示,本文提出了一种基于时空信息联合嵌入的端到端三维模型草图检索框架.在学习阶段,模拟人脑对视频特征的识别过程,分别将草图和三维模型表征为草图绘制序列和多视图序列;然后利用时空特征提取网络提取静态空间特征和动态时序特征,并引入度量学习完成时空特征的联合嵌入.在检索阶段,输入草图提取其时空特征,然后基于相似评价在联合时空特征分布空间中搜索并返回相似度最高的k个结果,完成草图-三维模型检索.

networks,RNN)相结合的草图-三维模型检索算法,同时捕捉草图的空间信息和绘制过程所包含的时序信息,以及三维模型多视图的空间信息和位次信息,以提高跨域数据表征的准确性.

1.2跨域数据的特征嵌入

部分基于草图的三维模型检索算法在完成三评价.例如,刘玉杰等[6]在利用CNN提取草图和三维模型的特征后,便采用最小距离法进行相似评价.然而由于没有充分考虑跨域数据之间的差异性,这类算法的检索效果不够理想.

更多的算法使用度量学习将草图和三维模型的初始特征嵌入到一个公共空间中,使特征空间中同类数据(同域和跨域)的距离更近,异类数据的距离更远.例如,Wang等[8]使用二元度量学习网络Siamese,迫使跨域同类数据之间的距离足够近,完成跨域数据的表征和嵌入.考虑跨域数据特征的相关性,Dai等[10]提出基于鉴别损失(discriminativeloss)和相关损失(correlationloss)的跨域特征嵌入的深度度量相关算法(deepcorrelatedmetriclearn-ing,DCML),有效地提高了域内不同类别数据特征的鉴别性和域间同类别数据特征的相关性.文献[12-13]同时考虑同类数据和异类数据之间的关系,提出基于三元度量学习三元损失(tripletloss)

图像序列的构建

草图绘制序列的构建2012年,Eitz等[14]对“人类如何绘制草图”这一问题进行了深入研究,发现人类绘制草图的顺序出奇的一致,即草图的绘制顺序蕴含着某种潜在语义.基于这一发现,在草图识别中研究者也提出了一些捕捉草图时序信息的算法,并取得了较好的效果[16-19].然而,在三维模型草图检索中,同时存在三维模型和草图2种跨域数据,如何有效地提取并应用草图的时序信息仍然是一个难题,迄今为止尚无相关研究.

给定一张草图s,为充分捕捉其绘制过程中所包含的时序信息,本文将其表征为m张笔画数不断累加的草图绘制序列,有Step3.输出子图序列¶(s).其中,si表示子图像序列si中所包含的笔画数目.为确保草图绘制序列中,每一幅子图像都包含足够的绘制信息.更进一步,本文要求子图像序列间笔画的递增数目相当,即要求当草图数据笔画数n不能被m整除时,无法严格保证各个子图中累加的笔画数完全一致.此时,若n对m求余所得余数为b,则为第1张至第b张子图每张增加1画,即它们所对应的新增笔画数为a+1;其余子图新增笔画数为a.

针对三维模型草图检索数据集SHREC2013[20-21]和SHREC2014[22-23],TU-Berlin[14]提供了三维模型所包含的草图数据.具体地,Eitz等[14]在AmazonMechanicalTurk平台上付费邀请了1350个人对各类草图进行绘制,并保留其绘制顺序,形成了数据量庞大且包含不同绘制人绘制习惯的大规模草图数据集TU-Berlin.因此,本文针对草图绘制序列的构建需求,基于TU-Berlin数据集,以包含用户绘制笔画顺序信息的svg格式草图为输入,构建草图绘制序列提取算法.

输入.草图数据s,子图序列个数m.

输出.草图绘制序列¶(s).

Step1.获取草图数据s的笔画数n.Step2.构建各个子图像:

当笔画数n小于m时,确保第1张至第b张子图每张递增1画,其余子图和第b张子图保持一致即可.

在以上2种情况下,无法严格保证每张子图累加笔画数一致,但是可以保证数目变化最多为1,在一定程度上确保了各个子图包含信息的一致性.图2随机选取了3张草图,并给出了当子图数目m取2,3,4,即草图绘制过程分别为2步、3步、4步时所对应的草图序列.由图2可见,当子图数目取值为2时,时域信息包含较少,仅体现了1组由部分到全局的时序变化;当子图数目为3和4时,草图绘制序列包含了2~3个时序变化,能够较好地体现动态绘制过程.同时,观察草图绘制序列会发现:在绘制草图时,用户通常会首先绘制体现草图整体结构的外轮廓线条,然后再绘制体现局部结子图i的笔画为第1画~第j+a-1画;

构的其他线条.这也再次说明了草图绘制的动态过程蕴含着丰富的时序信息,对这些信息的表征将有助于草图的表征和识别.

三维模型多视图序列的构建

当前,针对三维模型的多视图构建算法较多,如选择一张最佳视图的[6],将三维模型正向摆放后,随机选取2张[9]或均匀选取4~12张视图[24],还有围绕三维模型所在包围球随机采样选择k个视图[11].鉴于真实世界中绝大多数物体本身就是正向摆放的,人们观察物体时,也是在其周围多个视角定点观察得出最终结论.如图3所示,本文选择使用MVCNN算法[24],将三维模型正向摆放,然后在其斜向上30°的位置,随机选取第1个视角,并以此为起点,均匀设置12个虚拟摄像机,获得三维模型v所对应的多视图序列Ã(v)=(v1,v2,.显然,三维模型的多视图序列的图像顺序关系体现了视图之间的位置关系.

上一篇:试论多媒体技术在高职计算机教学中的应用下一篇:基于新医改的医院会计核算制度改革完善