数据挖掘中决策树算法的优化应用研究.pdf

收藏

编号:96567680    类型:共享资源    大小:1.74MB    格式:PDF    上传时间:2019-05-05
0
金币
关 键 词:
数据 挖掘 决策树 算法 优化 应用 研究
资源描述:
理论与算法
2016.08
数据挖掘中决策树算法的优化应用研究
马强
(长治学院计算机系,山西长治,046011
摘要:決策树算法是数据挖掘巾一种非常重要的分类方法。决策树具有属性结构和较好的分类预测能力,提供了本的提取
决策规则。本文阐述了決策树算法的基本思想,并分析了决策树算法运用中会遇到的一些问题,并针対性的提出一些建议。
关键词:数据挖掘;决策树算法;应用研究
Application research on optimization of decision tree in data mining
algorithm
Ma Qiang
(Department of Computor Scicnce, Changzhi Univorsity, Changzhi, Shanxi, 046011)
Abstract: This paper describes the basic idca of the decision trec al gori thm, and anal ycs somnc of the
problems encountered in the application of the decision tree algorithm, and puts forward some suggestions
Keywords: data mining: The decision trec algorithm; App lication rcscarch on
0引言
法,共中引入了 Shannon信息论,将信息熵作为选择测试的标准,
数据挖掘指的就是利用一些分析工具从大量的、不完全的、对实例集进行分类,同时构造決策树来预测如何由测试属性来对
模糊的、有噪音的、随机的数据中,提取出隐疲在其中的、实现未个实例空间进行划分。在TD3算法中的每一个循环过程都是对
知并具有价值信息的过。数挖把需要实现立数据关系模训练集进行查询米确定属性的信息增益。构造决策树肘采用凵顶
型,対数据进行分析预测。在数据挖掘中,分类是一项俳常重要的向ド的方式,将大数据辺过?纳、概拓、提炼出事物的隔性
任务,分类川于预测,负测的口的就是从厉史数据中自动推导出拠律后,以決树的方式表示出米,如下:
数据的描述趋势,从而对未米的数据进行预测。决策树算法足数
设U为论域,X,X2,X…X』是U的?个划分,其概率分布
据挖掘中最常用的方法,其作用ず分类阶段,可以直接体现数据为P=P(X,),称:H(X)=-∑log2为信源X的信息熵注:対
特点,分析预测数据,并能方便提取决策規则。
数取以2为底)。
1決策树的概念
总的来说,在处理大規模学习问题时,选择理论清晰、方法筒
決树分类算法是数据挖捕中用到比较广并H非常有效的的1D83算法,不大为种知识获取的有用工具
分类方法,包括I3和C4.5算法,共采用“白上而ド、分类治之”
2.2C4.5算法:C4.5决策树算法是D3算法的扩展,通过
的方法,通过一些无序、无规则的事例推测出决策树的分类规则,
息熵方法递归形成決策树,具有更加强的还续属性,具有适
可以实现对位置数据的分类、预测和数顶处理。次策树方法以用广、效率的特点。对比两种算法的不同之处,一方面表现在
分析利H纳利用信息理论为原则,采用流程图式树结构,分为根C4.5的测试属性技术是信思増益率(信思增益率=信增益/
节点和叶点,最顶层根节点包含信息内容最人,母分支?点是分判信息量),而1D3算法采用丁信息增益的方法选择测试属
代表样品类别或类分布。込策树一般分为构成和剪枝两个步,性ガ一方而表现是C45算法不需要独立测试样不集,提高效
如图1所示:
率,可以1接处理连续属性和属性空缺的样本,这样的产生决策
树分枝减少,而ID3算法的连鉄属性处理足离散化的。例
分类算法
设样木集S按照离散属性A的n个不同的収位,划
训练集
分为S1,S2,S3,…Sn,共n个子集,用A对S进行划分的信
分类模型
评估模型
测试集
息.增
Gain(S, A)
率为: Gainratio(s, A)- Splitlnfarmatiion( s,の?共中
分类规则
分类、预测
未知块数据 Splitlrformation(s,A)=-log
分类、预结果
3決策树算法中存在的问题
1决策树作原理流程图
3.1数据过分相似问题。决策树算法运算过程中产牛数据过
2常见的决策树算法分析
分相似的原因主要有炳点:(1)决策树算法在选择物体属性小不
能进行分辨,容易选到一些与自身种类不相关的属性,主要是因
2.11D3算法:1D3算法是一种基丁信息熵的決策树学习算为事物木身的属性人多:(2)決策树在运算过程中根据自己的偏
项H资功:长治学院教学研究项H(JY201418)。
甲测i
展开阅读全文
提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:数据挖掘中决策树算法的优化应用研究.pdf
链接地址:https://www.wdfxw.net/doc96567680.htm
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

版权所有:www.WDFXW.net 

鲁ICP备09066343号-25 

联系QQ: 200681278 或 335718200

收起
展开