书签 分享 收藏 举报 版权申诉 / 4

类型一种新的多标签数据集转换方法RAPC-W.pdf

  • 上传人:lihching
  • 文档编号:41353983
  • 上传时间:2019-05-05
  • 格式:PDF
  • 页数:4
  • 大小:2.70MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    一种 标签 数据 转换 方法 RAPC
    资源描述:
    第30卷第6期
    计算机应用研究
    Vol 30 No 6
    2013年6月
    Application Research of Computer
    Jun.2013
    种新的多标签数据集转换方法RAPC-W
    兰浩良,朱玉全,陈耿
    (1.江苏大学计算机科学与通信工程学院,江苏镇江212013;2.南京审计学院信息科学学院,南京211815)
    摘要:针对现有多标签数集转换方法无法有效利用标签间的语义相关性和共现性知识,以及转筷得到的数
    据築相对于问题规模偏小等问题,提出了一种新的多标签数据築转换方法RAPC-W( ranking by all pairwise com
    parision based Wordnet)。该方法将标签对从原来的两对扩展到四对,増加了判分后数据集的规模。另外,引入
    了外部数据源 Wordnet,較好地考虑了标签语义相关性和共现性知识,一定程度上过濃掉了语义不相关的标签組
    合,更好地保留了原始彀据集的信息,降低了楽声数据集对基分类器训练的不良影响。在UCI知识库提供的 Yeast
    和eter数据築以及KEEL提供的 Emotion、 Gcnbasc数据集上的一系列实验结果表明,该方法是有效可行的
    关鍵词:多标签;数据集转换;相关性;共现性; Wordnet
    中图分类号:TP311
    文献标志码
    文章编号:1001-3695(2013)06-1692-04
    doi:10.3969/j.isn.1001-3695.2013.06.02
    New multi-label data set division method RAPC-W
    LAN Hao-liang ZHU Yu-quan, CHEN Geng
    Schoof of mputer Scice& elecomm tins Eg ering, J iwi, Zen ang angst 212013, h 2. School of-
    Nanjing 211815
    Abstrac Existing multi-label data t a maion method can not effectiely utilize semantic co laton between the label
    and the co-occurrence of knowledge, as well as the dataset is small-scale to the scale of the problem such, this paper presented
    a new multi-label data set into method Raic-w(ranking by all pairwise comparision ased Wordnet),the method extend the
    label pair from the original two pairs to four pairs increasing the size of the devided data set. On the other hand introduce
    termal data sources Wordnet, taking a comprehensive consideration of the label semantic correlation and the co-occurrence of
    knowledge, to some extent, filter out the uncorrelated label combination in semantics, better to retain the information of the
    original data set, also reduce the adverse effects of the noise data set to the
    classifier training. A series of experimental
    results based on the Yeast and Letter data set provided by the IIC.I knwledge as we! as the Emotion and Genbase data set pro-
    vided by the KELL shows that this method is effective and feasible
    Key words: multi-label data conversion; correlation co-occurrence: Wordnet
    0引言
    数据的分类工作。要想提升该类方法的准确率,可以在两
    方面努力:a)寻求有效的基分类器构造方法,在转换后的数据
    随着多标笠学习在图像及视频语义标注、功能基因组、音集构建更加高效的基分类器;b)在多标签数椐集的转换上下
    乐情感分类和营销指导等方面的成功应用,多标签学习已经成功夫,即可以寻找一种高效的数据集转换方法,使转换后的数
    为数据挖掘领域的一个研究热点。对于多标签学习问题,其处据集能更好地反映原始多标崟数椐集中的信息,从而使得建立
    理方法可分为整体优化法和基于数据分解的方法。整体优在这种数据集上的基分类器具有更高的分类准确率。本文重
    化法对所有样本和标签构建一个优化问题,如 Boos T'exter算点从b)入手,寻找更加有效的数据集转换方法。
    法? Rank2SWM算法、多标签K近邻算法1和最大化熵的
    目前可用的转换方法主要有BR方法』、Copy方法、LP
    多标签算法(MIME〉等。该方法的优点是没有改变数据的方法?、RPC方法?等。BR( binary relevance)方法是一种典
    结构,没有破坏类与类之间的联系;其缺点是需要花费大量时型的基于数据分解的方法,它将每个标签的预测看儆一个独立
    间去解优化问题,难以应用到校大规模的数据集。基于数据分的单分类问题,并为每个标签训练一个独立的分类器,用全部
    解的方法将多标签学习任务转换为一个或多个单标签学习任的训练数据对每个分类器进行训练。这种算法忽略了标签之
    务,利用已有的单标签数据挖掘知识进行多标签问题的处理。间的相互关系,往往无法达到令人满意的分类效果。文献[8
    这种转换实际上是先将多标签学习任务中的多标签数据集转通过拷贝(copy)和带权重拷贝( copy-weight)的方法对BR进行
    换为单标笠数据集,再利用SVM?等分类算法在转换后的数改进,将原训练集合中的一条多标签数据拆分成多条单标签数
    据集上进行基分类器们的训练,并借助基分类器完成多标签据,并给予相应的权重;tP( label powerset)是另外一种被广泛
    收稿目期:2012-(9-27;回日期:2012-1-07基金项目:国家自然科学基全资助项目(712711)江苏省科枝型企业技术新资金资
    助项目(BC20123
    作者简介:兰浩良(1986-),男,山东德州人,硕土研究生,主要研究方向为数据挖摄、摸式识别( lanhaoliang200816@126.cm);朱玉全(1965-)
    男,江苏常州人,教授,博导,博士,主要研究方向为人エ智能、数据库系筑及其应用等;陈敢(1965-),男,教投,博士,主要研究方向为数据挖、审
    计风险管理等
    万方数据
    展开阅读全文
    提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种新的多标签数据集转换方法RAPC-W.pdf
    链接地址:https://www.wdfxw.net/doc41353983.htm
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    版权所有:www.WDFXW.net 

    鲁ICP备09066343号-25 

    联系QQ: 200681278 或 335718200

    收起
    展开