采用树自动机推理技术的信息抽取方法.pdf

收藏

编号:18985068    类型:共享资源    大小:332KB    格式:PDF    上传时间:2019-05-05
0
金币
关 键 词:
采用 自动机 推理 技术 信息 抽取 方法
资源描述:
Computer Engineering and Applications计算机工程与应用
2010,46(16)153
采用树自动机推理技术的信息抽取方法
谭鹏许,张来顺
TAN Peng-xu, ZHANG Lai-shun
解放军信息工程大学电子技术学院,郑州45000
Institute of Electronic Technology, the PLA Information Engineering University, Zhengzhou 450004, China
E-mail:tpx.2331775@163.com
TAN Peng-xu, ZHANG Lai-shun nformaton extraction using tree automata inference technique. Computer Engineering
and Applications, 2010, 46(16): 153-156.
Absract This paper proposes an informaton exa mtd ased on an imroved k-on ex ual ee automata inference algo
rithm. The key idea is to transform(semi-)structured documents into tree, creating unranked tre automata which can accept the
tree and extract data according to the unranked tree automata state of acceptance and rejection, using an advanced k-contextual
tree Ianguage, which is called KH ree language. The method makes full use of the tree structure of the web document and com
bines the method based on web structure with grammar inerene Expemental results show that the approach with tree automata
inference is favorable against some other approach in the leamning time and extraction time.
Key words e automata inference agor mm- u m unked auma inman extracton; KH
language
摘要:提出了一种利用改进的k- contextual树自动杌推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成
材,然后利用一种改进的- contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定
是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结狗途径的信息抽取方法与文法推理
原则相结合,得到信息抽取规则。实验证明,讓方法与同类抽取方法相比,样本学刁时间以及抽取所需时间上均有所縮短。
关键词:树自动机推理算法;结构化(半结构化)文;无秩树自动机;信息抽取;KLH树
DOI:10.37786isa1002-8331.2010.16.045文章编号:1002-8331(2010)16-0153-04文款标识码:A中图分类号:1P91
随着 internet及其技术的迅速发展,Web已经成为当今最1树自动机与信息抽取
庞大的信息库。然而Web页面中通常含有很多用户并不关心11自动机推理与信息抽取
的信息,如广告链接、导航栏和版权信息等,如何从Web页面
文法推理是一个从样本中总结出所存在的规则的过程。这
中抽取出有用的信息已经成为当前信息领域的研究热点之
个过程的目标就在于得到一个能够接受样本的最简单的自动
Helena在文献[1]中提出了通过文法推理来生成结构化文机。在正则文法推理时,需要一个有限集合Σ和一个正则语言
档的理论,该理论的出现以及目前 HTMLXML网页所存在的LC。给出一个满足语言的样本集合(S')和一个不满足语言
结枃特征,使利用文法推理来实现信息抽取技术成为可能。最
早 Freitag在文献2中提出了将文法推理应用到信息抽取技术的样本集合(可能为空集合)(S),而文中目标就是推理出一个
当中。而后在文献3中JRio-Juan等人证明了一种k- testable有限状态自动机,这个自动机能够接受S'中的样本,而不能接
树, Kosala 1在文献4利用该树提出了一种基于文法推理的信息受S中的样本。
抽取技术,并改进了k- testable算法,得到了较好的实验结果。
依据 Freitag在文献?中的研究,每一个文档被解析成
在国内,王茹等也提出了一种基于文法推理的信息抽取方法。个元素的序列,而这些元素来自于一个集合2。在样本中,将要
事实证明,利用文法推理以及自动机技术可以实现信息抽取。被抽取的内容替换为符号x,那么,满足语言L?(U)的样
该文提出了一种利用改进的k- contextual树来构造无秩树本所构造出的自动机将会接受这些被替换后的样本。
自动机来实现信息抽取的方法。通过将网页解析成改进的k-1.,2无秩树与无秩树自动机
contextual树,依据样本网页构造出无秩树自动机,利用所得到
树的秩就是树中结点孩子的数量,如果树的每个结点孩子
的树自动机接收和拒绝状态对网页进行数据抽取。
的数量都相等则称这棵树是有秩的,若不等则是无秩的阿。
作者筒介:谭鹏许(1984-),男,硕土研究生,研究方向为数据挖掘,信息抽取;张来顺(19653-),男,教授,硕士生导师,研究方向为计算机应用技术。
收稿日期:2008-11-19回日期:2009-02-18
万方数据
展开阅读全文
提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:采用树自动机推理技术的信息抽取方法.pdf
链接地址:https://www.wdfxw.net/doc18985068.htm
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

版权所有:www.WDFXW.net 

鲁ICP备09066343号-25 

联系QQ: 200681278 或 335718200

收起
展开