书签 分享 收藏 举报 版权申诉 / 5

类型泛化误差的各种交叉验证估计方法综述.pdf

  • 上传人:abc888987
  • 文档编号:58539817
  • 上传时间:2019-05-05
  • 格式:PDF
  • 页数:5
  • 大小:1.02MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    泛化 误差 各种 交叉 验证 估计 方法 综述
    资源描述:
    第32卷第5期
    计算机应用研究
    2015年5月
    pplication Researeh of Com puters
    May 2015
    泛化误差的各种交又验证估计方法综述
    杨柳,工悱
    (1.山西财经大学应用数学学院,太原030031;2.山西大学计算机中心,太原030006
    摘要:在机器学习中,泛化误差(预測误差)是用于算法性能度量最常用的指标,然而由于数据的分布表知,泛
    化误差不能被直接计算,实际中常常通过各种形式的交叉验证方法来佔计泛化误羞。详细地分析了泛化误差的
    交叉验证估计方法的优缺点,对照了各种方法之间的差异,提出和分析了各方法中有待进一步研究的问题和

    关键词:机器学习;泛化误差;交叉验证;偏差;方差
    中图分类号:TP181
    文献标志码
    文章编号:1001-.3695(2015)05-1287-04
    doi:10.3969/j.isn.1001-3695.2015.05.002
    or varlous cross-validation estimators of generalization error
    YANG Liu. WANG Yu
    (1. School ofapplied athens, han nesi of Finance Fonom, 03003 hi merce r Shn nri
    Taiyuan 030006, China
    Abstract In machine Iearning, generalization error is a commonly used index for mcasuring Ie perormance of alyorithm
    However, due to unknown data distribution, generalization error may not be directly computed. In practice, it is often esti
    male y variouseross-validalion mlos. This paper anal yd hc advantages and disadvantages of Ihe eross-validalion csli-
    mators of generalization error in detail. It compared the difference of various methods. And it also put forward and analyzed the
    future research problems and directions
    Key words: machine learning; generalization error; cross-validation bias; variance
    在机器学习(有监督学习)的研究中,主要有二人月标:a)验证、 Bootstrap交叉验证、5x2交叉验证、组块3x2交叉验证
    特征选择,从所有特征中选择出一个小的特征予集,以便构造等。
    一个好的分类器:b)分类器(算法)选择,佔计不同分类器的性
    能,从中选出最好的分类模型:)模型评什,対已经选定的分1泛化误差的定义及其记号
    类器,估计它在新数据上的测误差。无论是对于哪个学习任
    假定数集D=4,み2…,n是从一个未知的分布P中
    务,算法性能的度量是关键,泛化误差就是其中最厂泛使用的
    种性能指标。所谓泛化误( generalization eror.),指的是な独立抽样得到的样本、其中も=(x,)∈Z?R"1、x是P维输
    独立测试样本上的期蛙预測误差,也被称为測试误た(wlcr入向量,y是一·维输出变量。令f=A(D)表示在数据集D上训
    ror)或预测误差( prediction error)"2。在实际应用中,很难得练由算法A返回的预测函数,函数(A(D),)=1(A
    到样不的精确分布,因此也尤法肖接计算泛化误差,基于训练(の),(x,)=ソ(A4(のD)(x),)表示顶測A(D)(x)与观測y之
    样本上的平均损失的训练误差显然是它的个直接估计,遗憓向差异的度量,例如对于分类问题,(ア,)=(y≠y),其中
    的是训练误差是泛化误差的个很差的什计(过分乐观估
    表示示性函数;在阿归情形,の(y,r)=Iy-y2。
    计),因为训练误差随着模型复尔度的増加而减小,直至减小
    这样,算法A的泛化误差定义为
    到0。为此,一些学者通过对训练误改进提出了传统学习中
    (n)=EP:(n)=EL.(4(のD),)
    广泛使用的诸如AIC、BIC等的解析什计样本内误差的方
    这里対D和な都取期,其中x也是从分布P中独立于D
    法。近些年,一类通过样本重用米直接估计泛化误差的方抽样得到的样本。式(1)巾的期望意味着对个算法的般性
    法被提出,如交义验证( cross validation)、白助法(o
    能感兴趣,而不是仅考虑手边某个特定数据集上算法的性能。
    stap
    2泛化误差的各种交叉验证估计方法
    交叉验证方法是其中最简单且被广泛使用的方法,也因此
    得到了更多学者的关注,各种不同形式的交义验证方法被提
    ?在20业纪30年代, Larson就提出在相同的数据上训
    出,包括最早的留交又验证、标准K-折交又验证、RLT(re-练算法和评价算法的性能将得到过于乐观的结果。交叉验证
    peated learning testin)交叉验证、蒙特卡罗( Monte-carlo)交叉就是基」这个问题而被提出,它通过在新数摒集上进行算法的
    收稿日期:2014-(07-10:修回日期:2014-09-(05基金项目:国家自然科学基金资助项月(11171169);山再省科技基础条件平台建设项目
    (201301(003-0101)
    作者简介:杨柳(1979-),女,山西临汾人,讲师,硕士,主要研究方向为统计杌器学?、概辛统计(vangliu(@sxu.edlu.cn);王钰(1981-),男,讲
    师,硕士,主要研究方向为机器学习
    展开阅读全文
    提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:泛化误差的各种交叉验证估计方法综述.pdf
    链接地址:https://www.wdfxw.net/doc58539817.htm
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    版权所有:www.WDFXW.net 

    鲁ICP备09066343号-25 

    联系QQ: 200681278 或 335718200

    收起
    展开