书签 分享 收藏 举报 版权申诉 / 4

类型基于信息增益与信息熵的TFIDF算法.pdf

  • 上传人:renhaogogo
  • 文档编号:28503513
  • 上传时间:2019-05-05
  • 格式:PDF
  • 页数:4
  • 大小:310KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    基于 信息 增益 TFIDF 算法
    资源描述:
    第38卷第8期
    计算机工程
    2012年4月
    Vol38 No 8
    Computer Engineering
    April 2012
    软件技术与数据库
    文章编号:1000~-3428(2012)080037~04文标识码:A
    中分発号TP391,4
    基于信息增益与信息熵的 TFIDR算法
    李学明,李海璃,亮,何光军
    (重庆大学计算机学院,重庆400044)
    摘:传统的特征词权重算法 TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息
    增益的TIDF算法( TFIDFIG)进行改进,提出一种基于信息增益与信息媊的 TFIDF算法( TFIDFIGE)。实验结果表明,与传统的 TFIDF算
    法和 TFIDFIG算法相比, TFIDFIGE算法的查准率和査全率较高
    关词:文本分类;信息增益;信息熵; TFIDF算法
    TFDF Algorithm Based on Information Gain
    and Information Entropy
    LI Xue-ming, Ll Hai-rui, XUE Liang, HE Guang-jun
    ( College of Computer Science, Chongqing University, Chongqing 400044, China)
    Abstract The classical Tem Frequency and Inverse Documentation Frequen(TFID)algorithm neglects the proportion of distribution of terms
    in cate es and between cate es of the text collecti. Amin a i proem his paper ntroduces the information entropy, and the TFIDF
    algor hm based on fomation gi (TFID G)is improved. It proposes a FIDF alorithm based on information gain and information entropy
    (TFIDFIGE Expemen al reul show at the TFIDFIGE a o hm mo e a e radional a r hm, namely TFID, TFIDFIG n
    terms of precision and recall.
    T Key words I text classification in ormation a informaton trop Term Frequency and Inverse Documentation Frequenc (TFIDF)
    DOI:10.3969jsS.1000-3428.2012.08.013
    1概选
    以反映特征词的分布特征,针对没有考虑特征词类内分布特
    随着web技术的发展,文本分类成为Web文本挖掘的征的缺陷,本文在引入信息增益的 TFIDFIG算法的基础上加
    关键,其中文本向量化是分类的基础。在向量化过程中,特入信息熵,提出 TFIDFIG算法,使得改进后的权重计算公式
    征词的权重用来刻画特征词在描述文本内容时所起作用的重
    能更加确地计算特征词的权重。
    程度。特征词权重计算的精确程度成为影响文本分类优劣
    TFIDP算法及改进
    的重要因素。
    2.1 TFIDF算法
    目前常用的特征词权重计算方法有布尔权重法、平方根
    Salton在1973年提出了 TFIDF算法?,此后又论证了
    权重法、对数权重法、基于熵的权重法和 TFIDA( Term Fre- TFIDF公式在信息检索领域的有效性?。 TFIDF的主要思想
    quency and Inverse Documentation Frequency权重法叫。传统是:如果一个词在特定的文本中出现的频率越高,说明它在
    的 TFIDP算法虽然能满足一部分需求,但由于其本身忽略了区分该文本内容属性方面的能力越强;如果一个词在文本中
    特征词在类内、类间的分布特征对特征词权重所造成的影出现的范围越广,即每个类别中出现次数相当,说明该词区
    响,对最终分类结果的准确性造成了一定的误差。近年来,分文本内容的属性越低。
    针对 TFIDF算法的缺陷,研究者们对其做了大量的改进工
    TFIDF算法涉及以下3个概念:
    作。有些研究者在传统的 TFIDF算法上加入语义、词频、词
    (1)7F( Term Frequency)为特征词的文本内频数
    长、位置等多方面的信息对其进行改进2。针对 TFIDF算
    (2)DF( Document Frequency)为特征词的文本频数。
    法没有考虑特征词在文本集上的分布特征,文献[4]将信息
    (3)DF( Inverse Document Frequency)为特征词的反文本
    、互信息、信息增益等与 TFIDF I进行结合。为弥补数据集频数,用来度量特征词在文本集中出现的频繁程度。其计算
    偏斜带来的问题,文獻[]提出用 Category Term Descriptor公式为:IDF=b(Mm+0.01),其中,N表示训练文本的总数;
    (CTD)来改进 TFIDF。还有研究者用特征选择函数来代替m表示包含该特征词的文本数。
    IDF,将传统的 TFIDF算法改进成TF乘以特征选择函数的
    经过 Salton的多次论证,信息检索领域广泛地使用
    形式
    在这些改进的算法中,基于信息增益的 TFIDFIG算法金项目:中央高校基本科研业务费专项基金资助项目( CDJXSIII
    考虑了特征词的类间分布,提高了 TFIDF算法的权重计算的
    准确性。但该算法没有考虑特征词在类内的分布情况对其权作者筒介:李学明(1967-),男,副教授,主研方向:数据挖据,网
    重的影响。对于特征词在类内分布不均匀的情况,传统的格计算;李海瑞、薛亮何光军,硕士研究生
    TFIDF算法计算的权重值存在较大误差。由于信息熵的值可
    收稿日期:201-07-11E-mail:lixuemine@cqu.edu.cn
    万方数据
    展开阅读全文
    提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于信息增益与信息熵的TFIDF算法.pdf
    链接地址:https://www.wdfxw.net/doc28503513.htm
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    版权所有:www.WDFXW.net 

    鲁ICP备09066343号-25 

    联系QQ: 200681278 或 335718200

    收起
    展开