主页 > 论文欣赏 >

论文发表选题:基于引文图模型的科研论文智能推荐算法研究


2019-05-17    来源:电脑知识与技术    作者:肖诗伯;付圣

摘要:科研工作者在搜索文献时,即使通过关键词检索也常因结果中的大量文献而造成筛选困难。本文为帮助用户过滤文献,更好的发现适合自身的文献,考虑到文献的引文具有文献的研究传承、解释,拓展等内涵。所以本研究以文献的引文为研究对象,运用图模型算法,分析各文献间的亲疏关系,来为用户筛选、推荐文献。经评价算法计算,本研究算法的准确率为38.57%,召回率为27.32%,覆盖率为26.83%。可满足对文献亲疏关系的预测,为用户提供文献推荐服务,帮助用户发现适合其自身的文献。 
  关键词:推荐系统;图模型;随机游走;引文;科研文献 
  中图分类号:G642        文献标识码:A        文章编号:1009-3044(2019)03-0190-03 
  Abstract: When research workers search the literature, it is often difficult to screen a large number of literature in the result, even if use keyword search. This paper is to help users filter the literature, to find the appropriate literature for themselves, taking into the literature citations has connotation of literature research, inheritance, interpretation, expansion and so on. Therefore, this study is based on the citation of literature, use graph model algorithm, analysis of the relationship between literatures, help users filter and recommend literature. After evaluation algorithm analysis, the accuracy rate is 38.57%, recall rate is 27.32% and the coverage rate is 26.83.%. Can predict the relationship between the literatures, providing recommendation services with literature for users, help users find suitable for theirs literature. 
  Key words: Recommendation System; Graph Model; PersonalRank; Citation; Research Literature 
  1研究思路 
  學术数据库中海量文献不断激增,科研工作者在搜索论文时,一方面通过关键词搜索因大量的搜索结果而不能快速地找到自己需要的论文的情况,另一方面有不能较好使用关键词准确描述需求的情况,最终造成科研工作者将浪费大量时间排除不相关论文[1,2]。这也使得论文提供者对用户的文献服务不够完善。 
  科研论文的引文代表了论文内容中相关知识的传递,可揭示论文中相关知识结构的特征,也呈现了某一系列研究的层次和逻辑。本文以科研论文的引文为研究对象,通过识别论文到引文之间、一级引文到下一级引文之间、论文互引等的知识联系,为找出各论文之间的相关性,以帮助科研工作者快速筛选论文、发现自己的需求。 
  随着机器学习算法、大数据相关技术的不断更新和成熟,为解决这类问题提供了技术支撑。对于论文引文这种数据类型,本文使用机器学习中的图模型算法来的分析“论文-引文”“引文-引文”的亲疏性[3]。论文和引文在集合中均用顶点Un来表示,论文的引用行为用边En来表示。通过度量各定点之间的路径数量和长度来判断某一论文与其他论文的相关性高低。如图1示例: 
  对于相关性偏高的论文之间一般具有的特征为:两个顶点之间的连接路径较短、两个顶点之间有多条路径相连、两个顶点之间有互引路径、两个顶点之间的路径没有通过出度较高的顶点。 
  2推荐算法模型 
  通过在某一“顶点”开始在有向图的相应“边”和“顶点”之间随机游走。游走到任一顶点Un时,通过设计概率α来判断是继续游走,还是终止游走并返回原顶点重新进行游走。若α判断为继续游走,就对当前顶点的全部“边”采取随机方式任选一“边”进行游走到下一“顶点”,然后又返回到概率α来判断是继续游走,还是返回重新游走。通过多次随机游走后,各定点被游走到的概率将收敛为一个数,从而发现某一论文对各论文的相关亲疏,形成推荐列表,进而实现对科研工作者的论文推荐。基于科研工作者发表论文的数量和日期的频繁度相对不会太高,先为数据集中的作者离线计算一个初始的推荐列表,待作者及推荐列表中论文作者有新论文发表后,再采取离线计算的方式重新计算推荐列表,为其提供推荐。 
  2.1数据准备 
  把“论文-引文”数据集按论文发布时间顺序分为10份。前9份为训练集:度量各论文之间的相关性,然后以论文作者为标识,排列出对论文作者相关性高的论文。将最后1份作为测试集:以论文作者为标识导出其引用的论文,与训练集排列出的论文列表相比较,来评价算法模型的准确指数。具体使用Python语言、Numpy计算包、科学计算包来实现。 
  2.2算法实施 
  首先,设置论文顶点的初始概率值:论文Un的顶点初始游走概率α为1,其对应引文的初始访问概率β为0,定义“边”的权重为1,然后运用迭代公式处理。
然后,使用随机的方式选择引文。以论文Un的开始,在有向图中根据引用论文的行为,生成概率α,通过“边”En走到其引用的论文Un+s。又以论文Un+s为顶点,计算α=1-f决定是否继续游走。若为继续游走,则以相同的方式计算随机选择论文Un+s的引文继续重复;若为停止游走,则返回论文Un顶点进行下一轮游走循环,具体如式(1)。 
  其中Su代表某起始论文顶点,每篇论文均独立进行迭代分析,获取各自对集合S中其他论文顶点的经过概率。 
  相关核心代码是: 
  对于某论文Un进行大量随机游走循环后,取被游走到的文献,把每篇论文顶点被经过的概率迭代合并,取得相对稳定的收敛值。 
  最后,对论文经过概率进行排序。选择值排名前50的论文,剔除作者已引用过的论文,作为对作者的某篇初始论文的初始推荐列表。再以该作者为索引,依次计算其发表的全部论文的初始推荐列表。然后将这些初始推荐表中的论文,剔除重复后再按权重排序,形成最终推荐列表。 
  2.3算法优化 
  虽然本算法的理论在图模型中有比较充足的支撑,但计算任一篇论文,算法要对整个论文集U中的每篇论文进行遍历,造成时间成本高。若新加入一篇论文产生了新的引用关系,又需要再对全部有向图中的论文进行迭代。因此在对结果影响不高的前提下,为减少时间成本和硬件计算量,使用矩阵论方法优化算法。 
  3结果与分析 
  3.1分析标准 
  本算法模型采取推荐系统领域常用的准确率、召回率和覆盖率三种指标来评价算法的综合性能[4]。具体方式为: 
  准确率(Precision):把训练集中综合排名前47的论文与测试集中科研工作者引用的论文进行比较,评估对训练集预测出论文的比例,具体如式(4)。 
  其中ep表示训练集与测试集对比后相同论文的数量,bp为训练集与测试集对比后差异论文的数量。 
  召回率(Recall):把测试集中作者实际引用的论文与训练中预测出的论文进行比较,评估算法预测的查全率,具体如式(5)。 
  其中bn表示算法模型中未预测出的论文数量。 
  覆盖率(Coverage):把训练集中综合排名前47的论文的流行度和论文集U的整体流行度进行比较,来评估算法对非热门论文的发现能力。采用Information-entropy的公式来评估,具体如式(6)。 
  其中d(u)表示用论文d的流行度除论文集U的流行度的和。 
  3.2 实验结果 
  实验使用ANN提供的1965到2012年间发表的论文数据集,经筛选不完整数据和过于稀疏的数据,最后使用的数据信息为论文23354篇,作者2603个,引文数量15729篇,引用关系93572个。将算法模型中的α通过预先调试和比较,选择0.79为合适参数。将数据集导入算法模型中计算,再把结果导入评价公式计算,最后实验结果如表1: 
  将本模型结果与理想状态的朴素贝叶斯模型和K近邻模型相比,本模型的准确率与召回率虽然与理想状态下的模型有一定差距,但考虑到数据集的特殊性和不完整性,38.57%的准确率和27.32%的召回率是较成功的,可较为准确地为科研工作者在论文搜索过程中提供论文推荐。26.83%的覆盖率表示本模型在发现非热门论文方面有一定能力,可为科研工作者推荐一些与其科研内容相关且其可能不容易发现的论文。 
  4总结 
  本文采用有向图模型算法在论文和引文中进行随机游走和迭代,找出与作者论文有较多关联的其他作者的论文,帮助其筛选海量文献。本算法模型的适合运用场景为:作者在数据库中还未产生文献使用行为或作者在数据库中还未输入关键词等情况。本算法模型通过准确率、召回率和覆盖率3个指标的评价,其结果表示本算法具有一定的预测能力,能帮助用户发现适合其自身需求的文献。在后续的研究中,可运用学科逻辑分类来缩小算法的迭代遍历范围,提高计算速度并降低计算资源的消耗;还可结合作者在数据库中检索行为特征来提高预测的准确性;还可运用闪存系统提高算法对数据的读取速度[5,6]。 
  参考文献: 
  [1] 刘凯,王伟军,黄英辉,等.个性化推荐系统理论探索:从系统向用户为中心的演进[J].情报理论与实践,2016,39(03):52-56. 
  [2] 安维,刘启华,张李义.个性化推荐系统的多样性研究进展[J].图书情报工作,2013,57(20):127-135. 
  [3] 黄波,严宣辉,林建辉.基于有向图分割的推荐算法[J].计算机系统应用,2015,24(12):196-203. 
  [4] 吴海霞,何苑,路璐.个性化推荐系统评测指标与实验方法研究[J].晋中学院学报,2015,32(3):77-81. 
  [5] 肖詩伯,郭秀英.基于用户特征的文献个性化推荐系统研究[J].网络新媒体技术,2018,7(4):24-33. 
  [6] 肖诗伯,郭秀英.闪存部署方案在高校图书馆存储场景中的研究[J].微型电脑应用,2018,34(9):47-48+50-51. 
上一篇:论文发表选题:解析物联网视角下远程视频监控的优化策略 下一篇:论文发表参考:深度强化学习概述
相关文章推荐

  • 人类命运共同体与文明交流互鉴—基于数字时代
  • 什么是农民眼中的美好生活 ——基于乡村振兴
  • 大学生压力应对特征研究—基于“雨中人”绘画
  • 关于“以马克思主义为业”的几点思考—基于一
  • 基于设计学应用型人才培养体系构建的实践研究
  • 大学生党员教育管理研究—基于自媒体网络环境
  • 基于网络环境下消费者权益保护问题分析
  • 医疗合同违约责任中非财产责任的适用
  • 基于公平与效率视角谈民商法与经济法的价值取
  • 基于职业能力培养的高职英语教学评价体系研究
  • 基于研学旅行前置课程的微课设计
  • 基于微信公众平台辅助教学的瑜伽课程改革研究
  • 基于荣誉体系视角下的高校第二课堂建设现状及
  • 基于“智慧团建”建设下广东高校共青团
  • 基于“访问工程师”项目的计算机网络课程教学
  • 基于微课和雨课堂的计算机类课程改革研究