融合PAM和主题偏好Text+Rank的历史沿革信息抽取.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 PAM 主题 偏好 Text Rank 历史沿革 信息 抽取
- 资源描述:
-
第34卷第1期
计算机应用研究
Vo. 34 No. 1
2017年1月
Applieation Research of Computers
Jan.2017
融合PAM和主题偏好 T extrank的历史沿革信息抽取
H长波,林民,斯日市楞
(内蒙古师范大学计算机与信息工程学院,呼和浩特010022)
摘要:针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好
Textrank的方法。该方法利用PAMI主题模型获取历史沿革主题基于其他相关主题的分布和不同主題基于词的
分布;主题偏好 Textrank算法则根据PM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿
革主题相关度大的节点,从而更有利于抽取历史沿革主题信息。因历史浯革主题特征复杂,与其他主题关联度
大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM既可以获取基于词空间的分布,又可以取基
于主题分布,对解决这关问题有很大的帮助。利用已获取的主题信息,主题偏好 Text Rank算法偏向于与历史沿
革主题相关的节点进行随杌游走,使得抽取结果趋向于历史沿苹主题,从而提高了抽取的准确性。实验結果表
明,该方法在抽取历史沿革主题信息上更有效。
关键词:信息抽取;历史沿革;PMM; Textrank;主题模型
中图分类号:TP391.1文献标志码:A文章编号:1001-3695(2017)01-0123-05
doi:10.3969/j.issn.1001-3695.2017.01.026
Topic information extraction of history evolution based on
PAM and topical Textrank
Tian Changbo, Iin Min, Siriguleng
College of Computer &Informaton Ingineering, der gol Nom Uniersity, hho 010022, hina)
Abstract: Aiming at the problem of the information extraction of history evolution, this paper proposed a method combined
PA M with opical T xrank. PAM could fetch the distriution of different topics and the distribution of topics and word
Based on the distribution modeled by the PAM, topical Text Rank could extract the keywords which were more relevant to his
Lorica evolution opie. Because historic al evolution opic was complex and highly relevanl lo other topics. Whelher the words
were relevanl Lo the historical evolution topic was nol elear and hardly confirmed. So, PAM got both the distibution of Topics
and the distribution of topics and words, which was very useful to solve those problems. Furthermore, the historical evolution
topic facilitated topical Textrank to extract the words which were more relevant to historical evolution topic. The result shows
that the method combined the PAM and topical Textrank is more effective to extract the topic information of history evolution
Key words: information extraction; history evolution; PAM; Textrank: topic model
随着信思技术的飞速发展,诸多领域都存在着概念种类繁知识的频繁演化有着重要的帮助。?此,木文则着限于基于维
多、演变演化频繁的堄象。在软件工程、计算机等相关领域,技基百科软件工程领域的历史沿革主题信总的抽取,即从维基百
术概念的更新进步尤为迅速,通过传统的信息获取方式已经无科中及时、有效、全面地抽取软件工程领域概念的历史沿恺主
法满足对这类领域的札关知识的及时、有效、全面的获取。而题信息,并将其全面、系统、有序地组织起米,形成能动态更新
通过构建软件T程领域历史沿节主题的知识库,不仅可以帮的领域概念历史沿革主越知识库
財了解领域概念的发变化过程,有助」分析领域概念之间的
联系,也有助于领域知识的获取、复川及推理等,这对于梳理概
相关工作
念知识的演变演化、分析理论技术的发生发展部有着重要的学
历史治单主题信息表达事物演变、演化的特性。该主题没
术和应用价值。信息抽取技术是抽取历史沿主题信息,1动有明显的边界,其所包含的信息有很大的广泛性与关联性,即
构建域历史沿革丰题知识库的有效方法。而随着互联网技历史沿す题广泛分布,日与其他卞题都存在关联。如例句
术的速发展与普及,互联网的海量数据为信息抽収提供了+“2006年8月9口,igle首席执行官埃里克?施密特在搜素
高的数据源,而页的结构特征义可以降低自山文本的处理难引擎大会提出‘云计算'的概念。”和“ Python是一种面向对象
度,使得网络文本逐渐成为信总抽取的一个重要研究对象,而解释型计算机程序设计语言, II Guido van Rossum J1989年
维基自科( Wikipedia)作为网络上比较全闻、系统、完整的网络发切。”,它们分別描述云计算和程序设计语言两种不同的主
百科全书,对」人们及时掌握种类繁多的概念知识、眼进概念题,却同时包含历史沿中主题,也就是说历史沿主题是关」
收稿日期:2015-10-11;修回日期:2015-11-27基金项目:国家自然科学基全资助项月(61562068);内蒙古自然科学金资助项
013MSX0912);内蒙古师范大学研究生科研创新基金资助项目(CにXJS14(078
作者简介:田长波(1987-),男,湖北泉阳人,硕士研究生,主要研究方向自然浯言处理(charleston@foxmail.com);林民(1969-),男,内蒙古呼和
浩特人,教授,博士,主要研究方向为自然语言处理、人エ智能;斯月古揚(1991-),女,内蒙古道辽人,硕士研究生,主要研究方向为自然语言处理
万方数据
展开阅读全文
文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。



链接地址:https://www.wdfxw.net/doc60321567.htm