基于离散粒子群优化的微博热点话题发现算法.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 离散 粒子 优化 热点话题 发现 算法
- 资源描述:
-
第42卷第3期
计算机工程
2016年3月
Computer Engineering
March 2016
人工智能及识别技术
文章编号:1000-3428(2016103-020806
文献标识码:A
中卧分类号:TP31l
基于离散粒子群优化的微博热点话题发现算法
马慧芳,吉余岗,李晓红,周汝南
(两北师范大学计算机科学与丁程学院,兰州730070)
摘要:结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发
现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发堄
徵博热点话题及简化微博聚类过程,并将楽类质量评价指标作为适应度函数对聚类结果进行不断迭代优化,获得
聚类结東的最优解。实验结果表明,该算法能够在大量微博中快速发现热点话题,具有较高的热点话题发现准确
性及运行效率。
关键词:微博;热点题发现;词项关系;文本表示模型;粒子群优化
中文引用格式:马慧芳,吉余岗,李晓红,等.基于离散粒子群优化的微博热点话题发现算法[].计算机工程,2016,
42(3):208-213
英文引用格式: Ma Huifang, Ji Yugang, Li Xiaohong,etal. Hot Topic Discovering Algorithm for Microblog Based on
Discrete Particle Swarm Optimization[ J]. Computer Engineering, 2016, 42(3): 208-213
Hot Topic Discovering Algorithm for Microblog Based on
Discrete Particle Swarm Optimization
MA Huifang, JI Yugang, LI Xiaohong, ZHOU Runan
College of Computer Science &Engineering, Northwest Normal University, Lanzhou 730070, China)
Abstract] Considering the term relationship and the characteristics of Particle Swarm Optimization(PSO), a hot topic
detection method based on Discrete Particle Swarm Optimization(DPSO) is presented. The term mutual information and
the intra/inter information are constructed to update the traditional text representation model. DPSO is adopted to detect
hot topic which not only simplifies the clustering process but also takes clustering evaluation criteria as fitness function to
gel optimal solution of clustering results. Experimental results demonstrate that this algorithm can detect hot topics from
huge number of microblogs accurately and quickly, and it has high accuracy and efficiency of hot topic discovering
(Key words] microblog hot topic discovering: term relationship: text representation model; Particle Swarm Optimization
(PSO)
D0I:10.3969/j-isn.1000-3428.2016.03.038
概述
向量空问模型( Vector Space Model,VSM)2、潜在
语义分析( Latent Semantic Analysis,LSA)?等忽略
随着微博的持续发展,热点事件在交互式网络了微博间词项的语义关系,构建的微博表示矩阵高
上的传播速度迅速提升。用户通过潮览评论他人微绯稀疏。文献[45]提出∫基于耩合词顼的文本聚
博,接触并参与到热点话题的讨论中,加速热点话题类算法,结合词语互信息和关联词信息构造短文本
的形成。在微博上的热点话题发现研究成为当下舆表示模型以解决VSM,LSA等模型对语义忽略的缺
情发现领域的前沿方闯
陷以及文本表示矩阵高维稀疏的问题。该算法未要
微博以篇章短小、互动性强而著称。在对微求标识训练样本集,相较于有监督的文本分类算
博表示矩阵的构造过程中,传统的文本表示模型,如法°难度更大。同时,由于做博数量巨大,热点话题
基金项目:?家自然科学基金资助项目(61363058,61163039);國科学院计算技术研究所智能信息处理重点实验室开放基金资助项目
xP20144);甘肃省白然科学基金资助项月(145RJZA232);日肃省青年科技基金资助项目(145RYA259
作者简介:马慧芳(1981-),女,副教授、博士,主研方向为人工智能、数据挖掘、机器学习:古余岗,本科生;李晓红,讲帅;周汝南,
木科生
收稿日期:2015-0204修回日期:201543-10F~mail:mahuifang@yeah.net
万方数括
展开阅读全文
文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。



链接地址:https://www.wdfxw.net/doc13325568.htm