【有关聚类分析的开题报告】文本聚类开题报告范文

开题报告 2023-09-03 网络整理 晴天

【fanwen.jxxyjl.com--开题报告】

  文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。

  基于K―Mean文本聚类的研究

  摘 要 文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。

  关键词 文本聚类;k-means;相似性;度量准则

  中图分类号:TP391 文献标识码:B

  文章编号:1671-489X(20XX)18-0050-03

  Research for Text Clustering based on K-Mean//ZHANG Yue, LI Baoqing, HU Lingfang, MENG Li

  Abstract Text clustering can make the text similarity large clustered into the same class, K-Means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. Therefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm.

  Key words text clustering; k-means; similarity; measure criterion

  文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相似性,不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。

  在文本聚类分析中,文本特征表示一般采用向量空间模型[1],这种模型能更好表现文本。在对文本聚类的研究中,Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3],得出结论:采用K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现,结合实际研究,采用一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多[4]。

  1 文本聚类

  文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。

  K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,这样类内的文本具有较高的相似度,不同类间的相似度较小。

  K-Mean具体的算法过程如下:

  1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;

  2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中;

  3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采用平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑;

  4)迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。

  具体的算法流程如图1所示。

  2 改进的聚类算法

  虽然使用K-Mean算法进行文本聚类时,具有计算复杂度低,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现,不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在对文本的相似性的判断也有很大的影响,这就导致聚类判断不稳定。基于此,文章采用一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算,用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。

  改进的K-Means算法描述如下所示:

  1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;

  2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中,记作means;

  3)选择类中与类中心大于等于(1+a)*means的文本集合{D1,D2,...,Dk},其中a[-0.31,0.31],重新计算新文本集中的类中心;

  4)迭代执行第2步和第3步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。

  3 相似度计算

  文本聚类中涉及文本的相似性计算,只有相似性大的文本才能聚到同一类中,因此,相似性的度量对文本的聚类很关键。在文本聚类中,相似度度量方式一般有曼哈顿距离、Cosine距离、欧式距离,其中Cosine距离更能体现文本的相似性。本文主要采用Cosine距离,当两个文本之间的文本相似度越大,它们之间的相关性越强。文本集用向量空间模型表示后,文本的相似度采用向量之间距离表示:

  4 评价标准

  文本聚类的有效性需要进行验证,文章中主要采用F度量、平均纯度来对聚类结果进行评价。

  1)F度量。F度量把召回率和评价标准准确率结合在一起。

  准确率:P(i,r)=nir/nr (2)

  召回率:R(i,r)=nir/ni (3)

  其中nir是类别r中包含类别i中的文本的个数,nr是类别r中实际文本的数目,ni是原本类别i中应有的文本数,F值的计算公式:

  (4)

  由公式(4)最后得到评价函数为:

  (5)

  其中n为文本的总数。从公式看出F值越高,聚类效果越好。

  2)平均纯度。除了用F度量来评价聚类,文章中还使用平均纯度来度量文本聚类质量好坏[7]。设类ci的大小为ni,则该类的纯度为:

  (6)

  其中nj表示类ci与第j类的交集大小,则平均纯度公式为:

  (7)

  其中k为最终的聚类数目。一般说来纯度越高聚类效果越好。

  5 聚类实验结果分析

  文章中采用的实验数据主要是搜狗语料库。搜狗语料库主要包括10种文本类别:军事、招聘、IT、文化、健康、汽车、体育、旅游、财经、教育。搜狗语料库包含了每一类的文件夹,在文件夹中都是txt文本。为了验证改进后的算法比原算法更有效,进行了多次实验,最终选取了其中一次实验结果为例子,对两种算法的F度量和纯度进行比较,分别如表1和表2所示。

  从表1可以看出,改进聚类中心的K-Means算法在纯度方面相对有一些提高;从表2可以看到F值提高明显;从两个表中的实验结果可以看到改进的算法是有效的。

  6 结论

  基于文本的聚类分析能够对大量的文本进行聚类,分析中采用的聚类算法的改进能在很大程度上提高聚类的准确性。实验证明达到设计的效果,同时也为后期的各种数据挖掘工作打下基础。

  参考文献

  [1]Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J].Comm. ACM,1975,18(11):613-620.

  [2]Steinbach M, KaryPis G, Kumar V. A comparison of document clustering techniques[C].Proceedings of KDD 2019 Workshop on Text Mining.2019:1-20.

  [3]Ying Zhao, KaryPis G. Hierarchical Clustering Algorithms for Document Datasets[J].Proceedings of Data Mining and Knowledge Discovery,2019,10(2):141-168.

  [4]Dhillon I S, Modha D S. Concept decompositions for large sparse text data using clustering[J].Machine Learning,2019,

  42(1):143-175.

  [5]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2019.

  [6]MacQueen J. Some methods for classification and analysis

  of multivariate observations[C]//Proceedings of 5th Berkeley

  Symposium on Mathematics. Statistics and Science.1967:281-

  296.

  [7]Hammouda K, Kamel M. Collaborative document clu-stering[C]//2019 SIAM Conference on Data Mining (SDM06).

  2019:453-463.

本文来源:https://fanwen.jxxyjl.com/kaitibaogao/204371.html

  • 硕士论文开题报告答辩|管理硕士论文开题报告2015

    一、论文名称、课题来源、选题依据  论文名称:基于bp神经网络的技术创新预测与评估模型及其应用研究  课题来源:单位自拟课题或省政府下达的研究课题  选题依据:  技术创新预测和评估是企业技术创新决策的前提和依据。通过技术创新预测和评估,可以使企业对未来的技术发展水平及其变化趋势有正确的把握,从...

    发布于:2023-09-28

    详细阅读
  • 【本科毕业论文实验研究类】毕业论文主体·合作的实验研究

    一、研究的目的:   1)探索具有东风小学特点的培养学生合作意识与能力的方法、模式、途径。   2)在理论与实践结合点上,总结合作学习、合作活动、合作生活的案例,促进学生合作意识与能力的提高。   3)更新干部教师的观念,提高队伍的整体素质,培养忧秀教师,促进学校工作。   二、指导思想:...

    发布于:2023-09-28

    详细阅读
  • [论文开题报告由()填写](毕业)论文开题报告填写要求

    1 开题报告(含“文献综述”)作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及所在专业审查后生效;  2 开题报告内容必须用黑墨水笔工整书写或按教务处统一设计的电子文档标...

    发布于:2023-09-28

    详细阅读
  • [21世纪政治学系列教材]面向21世纪政治学研究的主题-政治哲学

    内容提要:进入21世纪,中国政治发展将进入建立高度民主的政治制度和培育成熟的公民文化阶段。与此相适应,政治学研究的主题就是为培育公民文化服务。政治理论对公民文化的形成具有启动和催生作用,但现有政治学理论属于“群众文化”的理论建构,应该实现向公民文化理论建构的转变。  一...

    发布于:2023-09-28

    详细阅读
  • 硕士论文开题报告答辩_理工硕士论文开题报告

    1 课题名称:  钢筋混凝土多层、多跨框架软件开发  2 项目研究背景:  所要编写的结构程序是混凝土的框架结构的设计,建筑指各种房屋及其附属的构筑物。建筑结构是在建筑中,由若干构件,即组成结构的单元如梁、板、柱等,连接而构成的能承受作用(或称荷载)的平面或空间体系。  编写算例使用建设部最新出...

    发布于:2023-09-28

    详细阅读
  • [区域经济学毕业论文选题]毕业论文区域经济学开提报告

    选题依据:黑龙江省是新中国解放最早的省份。50多年来,黑龙江省人民在党中央、国务院的领导下,发扬伟大的创业精神,艰苦奋斗,励精图治,取得了历史性辉煌成就,把昔日的“北大荒”建成了文明富庶的“北大仓”,成为国家重要的商品粮基地,黑龙江省经济总量已达到...

    发布于:2023-09-28

    详细阅读
  • 开题报告研究内容格式|开题报告内容与格式2015

    (1)课题的来源及选题的依据,着重说明本课题在国内外的研究动态、目前的水平。本课题的目的、意义和开展研究工作的设想,准备在哪些方面取得进展和突破,课题的最终目标以及可能达到的水平。  (2)课题研究拟采用哪些方法和手段。  (3)论证完成课题的实验条件,预计研究过程中可能遇到的困难和问题,以及解...

    发布于:2023-09-28

    详细阅读
  • [音乐系毕业论文开题报告]2015易系毕业论文开题报告

    随着市场竞争的日益激烈和市场营销组合策略的广泛应用,重新审视企业之间的关系,有助于一种新的营销观念—合作营销。它是当今营销的一种新趋势。任何一个企业都不能但靠自己的力量在激励的竞争中长足发展,在竞争中合作,在合作中竞争,已成为当今市场的一种必然。  本课题的基本内容  1 合作营销的...

    发布于:2023-09-28

    详细阅读
  • 毕业论文设计开题报告|毕业论文开题报告-现代语境下自觉消解类人学本质

    论文题目:现代语境下自觉消解类人学本质的第一人――论施蒂纳哲学及其重要价值   研究目的及意义:施蒂纳是青年黑格尔派的重要人物和逻辑终结者,他的代表作《唯一者及其所有物》第一次全面的批判了费尔巴哈甚至是启蒙思想以来的古典人本主义逻辑,也是西方思想史上在现代性的语境中第一个自觉地消解形而上学的人,...

    发布于:2023-09-28

    详细阅读
  • 钢筋混凝土框架结构毕业设计开题报告_毕业设计开题报告范文-钢筋混凝土多层、多跨框架软件开发

    1 课题名称:   钢筋混凝土多层、多跨框架软件开发  2 项目研究背景:  所要编写的结构程序是混凝土的框架结构的设计,建筑指各种房屋及其附属的构筑物。建筑结构是在建筑中,由若干构件,即组成结构的单元如梁、板、柱等,连接而构成的能承受作用(或称荷载)的平面或空间体系。   编写算例使用建设部最...

    发布于:2023-09-28

    详细阅读

Copyright @ 2011-2019 范文大全网 All Rights Reserved. 版权所有

免责声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。

 站长统计