维基百科词条内容热点挖掘

bb20920d · 发表于 2022-4-18 20:14:05

题目：

雅宝题库答案：

****此区域为收费内容**** 需支付 1 知识币后可查看，1币=0.01元查看答案

雅宝题库解析：
Web2.0的迅猛发展，使得用户从网站浏览者转变成网站内容的参与者。而维基百科就是典型的Web2.0应用成功的案例之一。它是一个免费的、基于Web的、协同合作的、多语言的百科全书项目。维基百科的机制是任何人都可以对词条进行添加、删除或修改等编辑，但对浏览者而言，词条本身仍是一个特定主题的整体。维基百科会保留词条编辑历史上的所有版本记录，同时也提供了一套简单的维基编辑规则。维基百科的成功很大程度上归结于它背后的合作编辑机制，很多研究者从不同的角度对其展开研究，主要包括维基词条的统计特征、编辑者之间的网络关系、词条质量的信誉机制设计。另外还涉及可视化的工作以及从语义挖掘角度建立知识库。本文从维基百科词条历史版本记录着手，结合可视化与文本挖掘的方法，试图挖掘出词条随着历史演变过程中出现的热点内容，为用户提供可变粒度的、尽力而为的服务。本文的主要工作和取得的成果如下：利用数据可视化的思想，在维基百科中提出用热度图来表示词条的内容演化情况。并通过对热度图的分析，挖掘词条发展情况，帮助词条朝着高质量的方向发展。另外，结合云模型的思想，提出用半云模型来构建文本特征提取算法。在英文维基百科高质量词条的数据集上，与传统的特征提取算法包括文档频数、信息熵、概率比和Chi统计量这四种算法进行文本分类的比较。在准确率、召回率和F值这三个评价指标上，对这五种算法进行实验对比。实验结果得出，其他的四种算法都是随着特征词提取数量的增加分类的评价指标提高，F值最大能达到70%左右。而基于半云模型的特征提取算法得到的分类结果评价指标呈现先升后降的趋势，在特征词选取4%的时候就能够达到指标F值的最优点，为75%左右。这不仅能够有效的降低特征提取的维数，而且能保证描述文本的精度。最后结合热度图与特征提取得到变粒度的词条内容文本，向用户传达不同热度的词条内容，可以供不同角色的人使用。编辑者可以据此编辑争议多的部分，帮助词条朝高质量方向发展；阅读者可以更多的关注争议较少的部分，学习大众认可的知识；研究者可以进一步研究这些热点转移背后词条演化的规律。

维基百科词条内容热点挖掘

天涯海角也要找到Ni：维基百科词条内容热点挖掘

相关帖子

浏览过的版块

QQ微信同步：1144766066。

服务

网站

战略合作