基于文本的WEB图片搜索引擎技术的研究与实现

[复制链接]
查看: 315|回复: 0

4万

主题

4万

帖子

13万

积分

论坛元老

Rank: 8Rank: 8

积分
137673
发表于 2022-4-18 20:48:55 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
互联网的发展带来了网页资源的爆炸式增长,这些资源不但包括文本信息,还包括图片等其它的信息。图片数量的飞速增长,带来了对图片搜索引擎的需求。本文以针对图片搜索引擎的应用背景,目标是构建科技类的图片搜索引擎,提出了基于文本的科技类图片搜索引擎解决方案。本文主要介绍了WEB图片搜索引擎相关的技术,包括聚焦主题爬虫、图片文本信息的抽取、图片信息的存储和排序方案。具体内容主要包括以下三个方面:1 科技类主题爬虫研究。通过对主题爬虫的相关技术的研究,同时参照科技类主题爬虫的自身体征,本文提出了一种基于联合相似度模型的主题爬虫。联合相似度指的是综合考虑网页间的链接关系和文本相似性。实验证明这种方法是有效的。2 基于浅层文本特征的图片信息抽取。目前网页的结构特征淡化,网页内容的属性信息存在于CSS中,传统的文本抽取方法有一定的局限性。本文根据图片文本信息的特征,提出了一种基于浅层文本特征的图片信息抽取方法。浅层文本特征,指的是文本的非语义特征,只是对文本表层特征的简单统计,例如链接,标点,句子长度等等信息。这种方法克服了传统方法在新的结构网页中效率低下的题目。3 图片信息权重模式研究。图片的文本信息分别处在网页中的不同位置,包括标题、锚文本、替换文本和环绕文本等。这些不同的位置对于图片的描述力度不同,而且不同位置之间又互相作用。本文提出了一种综合权重模式,综合考虑不同位置的权重、各个位置的局部权重和整体权重,取得了不错的效果。





上一篇:维基百科词条内容热点挖掘
下一篇:基于机器学习的网络拓扑测量技术优化研究
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图