基于CRF的中文WEB信息实体抽取及应用研究

[复制链接]
查看: 394|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
72282
发表于 2022-5-29 11:37:11 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
随着互联网技术的不断发展,互联网已经成为重要的信息源。面对海量的WEB信息,人们依旧面临着知识匮乏的困境。信息抽取技术的出现使得人们能够从信息源中抽取到自己感兴趣的信息,而命名实体抽取技术是信息抽取中关键的技术。由于命名实体是信息的主要载体,所以命名实体识别技术的好坏直接影响着信息抽取效果的好坏,命名实体识别已经成为自然语言处理一个重要研究领域,然而由于国内对命名实体识别研究起步较晚,以及中文自然语言的复杂性,中文命名实体的抽取还处于初级阶段。通过对前人有关命名实体识别研究的总结和分析,提出了基于特征归纳的CRF模型,并用基于改进贪婪算法进行歧义消解,从而提高命名实体识别效果。本文主要工作内容主要分为以下几个方面:(1)研究国内外命名实体抽取方法,分析CRF模型存在的题目。命名实体识别方法主要分为基于规则和基于统计方法两类。基于规则的方法需要人工事先建立抽取规则库,可移植性比较差。基于统计的方法通过建立统计模型,从标注的训练语料库中学习模型所需的参数后自动实现命名实体的识别,常见的有隐马尔科夫模型(HMM),最大熵模型(ME),条件随机场模型(CRF)。HMM有严格的独立假设,ME存在标记偏置题目,CRF模型训练时间成本大,但是克服了前两个方法的缺点并且可以加入任意数量的特征。(2)针对CRF模型训练时间复杂度高的题目,对CRF模型的参数训练方法进行了改进,提出了基于特征归纳的CRF模型,通过特征归纳的方法选取有意义的特征来减少特征个数,从而降低模型训练的时间复杂度。(3)针对命名实体识别中存在的歧义切分题目,提出基于改进的贪婪算法进行歧义消解,并构建了基于改进CRF的中文命名实体抽取的体系架构,并提出采用领域知识库来实现命名实体抽取系统的领域扩展。(4)根据MSRA提供的训练语料库对本文提出的改进命名实体抽取方法的性能进行验证,命名实体抽取结果的 值达到92.76%。通过构建领域知识库将命名实体抽取系统应用于消费品质量安全领域,命名实体抽取结果的 值达到74.40%。





上一篇:穿越虚幻与真实的写作:论简•奥斯汀小说《诺桑觉寺》中的女性双重世界
下一篇:基于TOC的生产调度系统的研究与应用
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图