
应用研究
基于双模语义空间的图像标注
曹瑛
(江西理工大学教育信息技术中心,江西赣州341000)
数事执本高究用
摘要:本文着眼于图像底层视竞和文本标签这两种模态信息,探计基于双模语义空间的图像标注技术。将视党特征与文本标注表示为同一对象的两种视图方式考虑两个特征空间之间的语艾对偶关系,在双模主题构成的对称空间上构建一个非概率主题标注模型,为图像标注研究提供新思路和理论依据。
关键词:图像标注;双模;语艾
中图分类号:TP391
文献标识码:A
随着网络多媒体数据的剧增,图片正呈爆炸式增长,人们如何从海量的图像中找到自已想要的图像是当前研究的热点。如果能将图片用若干文本进行标注,就能将图像的检索间题转换成更为成熟的文本检索问题来处理,所以实现图像语义检索的关键便是自动图像标注技术,即给未知图像添加能描述其内容的文本关键词的方法。
1自动标注常用算法
图像自动标注方法大概可以分成两类:有监督分类的方法和关联建模的方法。其中有监督分类的方法是将各个语义类别看作独立的概念,为每个语义类别建立单独的分类器3。新进一幅图片,通过计算视觉特征相似度,将相应的文本关键词传播给新图片,
关联模型这类方法利用现有的已标注好的图像数据集,试图在无监督的基础上学习图像的视觉特征和文本关键词之间的关联,再将这种关联应用于未标注的新图像,通过统计推理来预测新图像的语义信息。
借助有标注的图像训练集,运用无监督学习的方法对图像视觉特征和标签关键词之间的语义关联进行建模,对于新的末标注图像,通过这种关联再进行统计推理得到标注词汇,这种基于概率关联的模型方法最早提出的有机器翻译模型、跨媒体相关模型、对偶跨媒体相关模型。近年来LDA模型取得了更好的成效,首先在图像的视觉特征空间和文本特征空间分别生成潜在主题,选择一个子集形成混合的LDA模型来实现语义标注,基于概率的PLSA-MIXED模型4 则是将视觉特征和文本特征审联组合成一个混合的特征空间,完成基于潜在语义分析的图像标注,PLSA一FUSION模型-则是通过分别建立视觉潜在语义空间和文本潜在语义空间,然后采用动态自适应的方法进行融合,形成它们共同的潜在主题空间。
这此提取图像不同模态潜在主题的统计模型在图像标注领感已取得成功的应用,但是在这些基于PLSA的图像标注模型中,既没有考虑文本关键词之间的语义关联,也没有考感视觉特征之间的语义关联,如果能将这两种因素都进行考虑,必然会提升图像标注的性能。
本文着力于构建一个语义空闻能够很好的反映图像与图像、标注与标注、图像与标注之间的语义对应关系,提出基于双模语义空间的图像标注技术。首先将视觉特征与文本标注表示为同一对象的两种视图方式,运用偏最小二剩(PLS)的多元统计分析理论,考虑两个特征空间之间的语义对偶关系,抽取得到双模态共有语义信息:在双模主题构成的对称空间上构建一个非概率主题标注模型,为图
像标注研究提供新思路和理论依据。收稿日期:2017-10-20
基金项目:江西省教育厅科技项目(GJ161680)。
文章编号:1007-9416(2017)10-0098-01 2双模语义的图像标注
我们拟在数据集上,将视觉特征与对应的标注看成是从同一表示层面描述相同对象形成的不同视图,提取同一对象在各表示层面上的语义表示,综合考虑图像与图像、标注与标注、图像与标注之间的语义对应关系,构建双模态的潜在语义主题空间。图像集中的m幅图像的两种模态特征分别表示为视觉特征X=和文本特征Y=(y损,使用偏最小二乘(PLS)从数据集中为图像视觉特征和标签文本特征抽取对偶主题空间,通过模型化语义相关性的统计依赖关系来建立双模主题的语义对应关系。图像投影到双模主题空间计算图像与图像的相似度,标注与标注的相似度进一步改善图像的标注。
新来一幅未标注图像,视觉特征表示为 X。=(X1,X,Xo3,X),经变换得到:
e, = (xoI X, Xe ,.. X, x,)
(1)
其中,x,=1/n之,,然后根据训练得到的号,按照下面的公式,递推出未标注图像在视觉主题空间的投影向量:
tao =e±-5k C = C,I fo P
(2)(3)
其中,P是回归系数,t,是中间变量,最终图像的标注属性可以这样计算出来:
0%+4=
(4)
可以看到矩阵y方便的表示图像的标签属性,而对于每一幅待标注图像最终得到预测向量夕,它的每个分量代表对应标签的预测结果,预测结果越接近,分配该标签关键词的可能性越大。我们通过对每一个标签关键词预设一个阐值来判断它是否作为图像的标
注信息。参考文献
[1 JBlei DM, Jordan MI. Modeling annotated data. In: Proc. of the 26th Int* 1 ACM SIGIR Conf. on Research and Development in Information Retrieva1. New York: ACM PresS, 2003. 127134.[2]Jeon J, Lavrenko V, Manmatha R, Automatic image annotation and retrieval using crossmedia relevance models. In: Proc. of the 26th Int* 1 ACM SIGIR Conf. on Research and Development
.·下转第100页
作者简介:曹瑛(1984一),女,汉,江西部阳人,硕士研究生,讲师,研究方向:文本分类、数据挖据 98
万方数据