基于高质量雅宝题库的问答检索系统的研究与实现

[复制链接]
查看: 254|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
76393
发表于 2024-1-12 15:51:19 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
随着互联网进入了Web2.0时代,大量网络内容来自普通用户的输入。例如目前互联网上非常流行的知识共享型网站,用户可以在网站上提出题目并等待其他用户回答。目前这类网站每天都积累着成千上万的题目和答案,累计已经达到千万级。这里覆盖了用户日常所关心的生活、学习和工作的常见题目,并且题目和答案文字都没有上下文假设,非常适合作为自动问答系统的知识库。然而由于内容来自用户的输入,不可避免地存在着大量的无关和垃圾信息,包括广告信息,恶意攻击等,我们称之为低质量的内容。这样的内容频繁出现在社区问答中,严重影响了问答系统的用户体验,同时也降低了答案抽取的精度。另外,对中文社会网络中用户的行为特征研究目前国内还鲜有涉猎。为解决上述题目,本文利用题目答案对在社区问答平台中的文本特征和非文本特征,进行逻辑回归分类训练,从而建立有效的分类器对题目和答案的质量进行评估。其基本思想是:用户产生的内容和用户参与的历史特征,在线社区提供的应用型参数,基于自然语言处理技术的文本视觉评价特征与作文自动判分机制特征有较大的相关性。提取这样的特征对过滤低质量内容上有很大帮助。本文首先设计实现了一个高效的社区网络资源抓取工具,并以百度知道作为抓取模板,搜集了近百万数量级的题目和答案实体;然后对其特定时间段的社区用户行为和社会网络特征进行统计和对比。由于用户产生的内容和用户的权威有较大的相关性,我们采用的链接分析算法对用户权威进行了估计和评价;为了进行有监督的机器学习,我们搭建了人工标注平台,组织标注者对题目和答案的质量进行手工标注,把标注的结果作为训练集,通过提取和质量因素相关的特征集,建立分类模型。实验表明,该分类模型对用户内容的质量有较好的过滤作用;最后,为了方便大规模数据索引和后续分类实验,本文基于J2EE开源框架和Lucene检索工具,建立了一个B/S模式的问答检索平台。本文的主要贡献在于充分利用了社会网络的统计方法和信息检索技术,通过把机器学习训练得到的文档质量得分融入到检索排序函数中以提高检索结果的质量。





上一篇:干部自主选学信息管理平台的设计与实施
下一篇:辐射环境中光纤光栅交叉敏感题目的分析与研究
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图