期刊文献+
共找到31,496篇文章
< 1 2 250 >
每页显示 20 50 100
基于KL散度的密度峰值聚类算法 预览
1
作者 丁志成 葛洪伟 周竞 《重庆邮电大学学报:自然科学版》 CSCD 北大核心 2019年第3期367-374,共8页
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动... 快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。 展开更多
关键词 密度峰值(DPC) 密度 自动
在线阅读 免费下载
聚类中心初始值选择方法综述 预览
2
作者 邓旭冉 超木日力格 郭静 《中国电子科学研究院学报》 北大核心 2019年第4期354-359,372共7页
聚类分析是常用的机器学习算法之一,通过聚类可以观察数据结构,因此聚类方法被广泛应用于多个研究领域。对于聚类算法来说,算法初始化对聚类结果的影响是非常大的。不同的聚类初始值可能会导致截然不同的聚类结果,甚至会影响聚类算法的... 聚类分析是常用的机器学习算法之一,通过聚类可以观察数据结构,因此聚类方法被广泛应用于多个研究领域。对于聚类算法来说,算法初始化对聚类结果的影响是非常大的。不同的聚类初始值可能会导致截然不同的聚类结果,甚至会影响聚类算法的收敛性质。本文主要介绍了近年来提出的聚类中心初始化方法,并分析其优劣性质。这些分析结果会帮助更好的理解并选择合适的聚类中心初始化方法。 展开更多
关键词 划分 中心 算法初始化
在线阅读 下载PDF
一种基于谱聚类算法的高光谱遥感图像分类方法 预览
3
作者 杨随心 耿修瑞 +2 位作者 杨炜暾 赵永超 卢晓军 《中国科学院大学学报》 CSCD 北大核心 2019年第2期267-274,共8页
结合K-means算法和谱聚类方法的优点,提出一种新的高光谱图像聚类方法。该方法在对高光谱图像数据进行特征降维的基础上,采用K-means算法对图像进行粗聚类处理,然后采用谱聚类方法对粗聚类结果进行较高精度的聚类。与K-means聚类算法相... 结合K-means算法和谱聚类方法的优点,提出一种新的高光谱图像聚类方法。该方法在对高光谱图像数据进行特征降维的基础上,采用K-means算法对图像进行粗聚类处理,然后采用谱聚类方法对粗聚类结果进行较高精度的聚类。与K-means聚类算法相比,该方法有效提高了高光谱图像聚类的分类精度。对模拟数据和真实的高光谱数据的对比实验表明,相对于K-means和谱聚类方法,该方法具有良好的聚类性能。 展开更多
关键词 高光谱图像 K均值
在线阅读 免费下载
基于平均差异度的改进k-prototypes聚类算法 预览
4
作者 石鸿雁 徐明明 《沈阳工业大学学报》 CAS 北大核心 2019年第5期555-559,共5页
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中... 针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. 展开更多
关键词 k-prototypes算法 初始中心 混合属性数据 平均差异度 信息熵 属性权重 度量公式
在线阅读 下载PDF
MapReduce框架下常用聚类算法比较研究 预览
5
作者 张占峰 耿珊珊 《河北省科学院学报》 CAS 2019年第2期1-6,共6页
大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原... 大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原理与优缺点,并对这些算法的进一步优化进行了分析。 展开更多
关键词 大数据处理 MAPREDUCE 算法 算法描述
在线阅读 下载PDF
k近邻约束的稀疏子空间聚类 预览
6
作者 刘玉馨 何光辉 《计算机工程与应用》 CSCD 北大核心 2019年第3期39-45,共7页
稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符... 稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性。在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS上的聚类实验表明提出的算法具有良好的性能。 展开更多
关键词 子空间 稀疏表示 K近邻 人脸
在线阅读 下载PDF
基于密度最大值聚类的奶酪风味鉴别模型 预览
7
作者 干佳俪 谭励 +2 位作者 宁晓辉 王蓓 孙践知 《中国乳品工业》 CAS 北大核心 2019年第2期10-14,共5页
针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先... 针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先用改进的密度最大值聚类算法对风味物质进行聚类,自动获取聚类中心形成具有风味表征的特征,然后利用支持向量机算法进行分类鉴别。结果表明,通过改进的密度最大值聚类算法得到风味物质特征后,分类器模型更加稳健,均适用于切达奶酪和马苏里拉奶酪的类别鉴定,准确率均在95%以上,高于原始特征、DBSCAN聚类特征、K-means聚类特征的分类结果。 展开更多
关键词 密度最大值 SVM算法 机器学习
在线阅读 下载PDF
聚类算法综述 预览 被引量:2
8
作者 章永来 周耀鉴 《计算机应用》 CSCD 北大核心 2019年第7期1869-1882,共14页
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大... 大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。 展开更多
关键词 相似性度量 大数据 小数据 评价
在线阅读 下载PDF
基于状态聚类的分布式模糊测试技术 预览
9
作者 邓一杰 刘克胜 +2 位作者 赵军 常超 朱凯龙 《计算机工程与设计》 北大核心 2019年第9期2428-2434,2501,共8页
针对当前分布式模糊测试任务分配中,大量测试用例重复执行导致测试效率低的问题,提出基于状态聚类的分布式模糊测试任务分配策略。通过大量随机测试获得目标程序的初始状态空间;根据路径前缀将初始状态空间划分为相互独立的状态子空间,... 针对当前分布式模糊测试任务分配中,大量测试用例重复执行导致测试效率低的问题,提出基于状态聚类的分布式模糊测试任务分配策略。通过大量随机测试获得目标程序的初始状态空间;根据路径前缀将初始状态空间划分为相互独立的状态子空间,将其对应的任务分发到各测试节点;利用路径约束控制变异的方向,保证各测试节点探测的状态空间相互独立。根据该方法,设计实现一个高效的分布式模糊测试系统。分别在libtiff库和CGC测试集上进行实验,实验结果表明,该系统能够有效减少测试用例的重复执行次数,提高模糊测试效率,有机会发现更多crash。 展开更多
关键词 分布式 模糊测试 状态空间 路径约束
在线阅读 下载PDF
不同聚类算法在Wi-Fi定位中的研究 预览
10
作者 陈蕾 《智能计算机与应用》 2019年第2期78-81,88共5页
本文比较分析了K-means聚类、蚁群聚类和DBSCAN聚类三种聚类算法在室内定位系统中的应用,通过比较3种算法分别与基于Wi-Fi信号接收强度的支持向量机回归算法室内定位模型相结合定位的仿真实验,发现K-means和DBSCAN聚类算法均优于蚁群聚... 本文比较分析了K-means聚类、蚁群聚类和DBSCAN聚类三种聚类算法在室内定位系统中的应用,通过比较3种算法分别与基于Wi-Fi信号接收强度的支持向量机回归算法室内定位模型相结合定位的仿真实验,发现K-means和DBSCAN聚类算法均优于蚁群聚类算法,且两者定位结果相差不大。考虑到DBSCAN聚类算法可以去除噪音点,将DBSCAN聚类与K-means聚类算法混合分析后,再与定位模型结合,获得更好的定位效果。 展开更多
关键词 K -means DBSCAN 室内定位
在线阅读 免费下载
基于Spark平台的K-means算法的设计与优化 预览
11
作者 王义武 杨余旺 +2 位作者 于天鹏 沈兴鑫 李猛坤 《计算机技术与发展》 2019年第3期72-76,共5页
聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最... 聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最大最小距离算法对数据点进行筛选,得到可以反映数据分布特征的点,并作为初始的聚类中心,以提高聚类的精度。从两次的实验结果可以对比出,在不同的数据集上,改进算法在衡量聚类效果的准确率、召回率、F-测量值上的表现要优于传统K-means算法。这是因为OCC算法选择的中心点来自于不同的且数据密集的区域,并在筛选的过程中排除了噪声数据、边缘数据对实验的干扰;同时为了契合大数据发展潮流,使用Scala语言在Spark平台进行了并行化实现,提高了算法处理海量数据的能力,并通过实验指标验证了算法具有良好的并行化能力。 展开更多
关键词 中心 K-MEANS 最大最小距离算法 非加权组平均法
在线阅读 下载PDF
基于样本对加权共协关系矩阵的聚类集成算法 预览
12
作者 王彤 魏巍 王锋 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第4期592-600,共9页
聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使... 聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k.means算法产生多个基聚类结果,然后对于其中的每个类再利用k.means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果.在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法。 展开更多
关键词 集成 共协矩阵 加权策略
在线阅读HTML 免费下载
数据质量聚类算法 被引量:1
13
作者 李延 王大魁 +1 位作者 耿晶 王树良 《武汉大学学报:信息科学版》 EI CSCD 北大核心 2019年第1期153-158,共6页
在聚类算法中,聚类中心决定聚类的最终结果,而传统的分割聚类算法不能准确定位聚类中心。根据数据场提出了数据质量聚类中心的新概念,给出数据质量聚类算法,能够一次定位聚类中心,无需迭代,也无需预置聚类个数。7组对比实验表明,提出的... 在聚类算法中,聚类中心决定聚类的最终结果,而传统的分割聚类算法不能准确定位聚类中心。根据数据场提出了数据质量聚类中心的新概念,给出数据质量聚类算法,能够一次定位聚类中心,无需迭代,也无需预置聚类个数。7组对比实验表明,提出的方法能够准确定位聚类中心,获得良好的聚类结果和稳定性,优于传统的分割聚类算法和峰值密度聚类算法。 展开更多
关键词 数据场 数据质量 中心
基于Hubness现象的高维数据混合聚类算法 预览
14
作者 王妍 马燕 +2 位作者 黄慧 李顺宝 张玉萍 《电视技术》 2019年第6期17-23,共7页
高维数据聚类是聚类分析中的难点。K-hubs聚类算法是在K-means方法基础上,结合高维数据空间的Hubness现象对数据进行聚类。针对K-hubs聚类算法需要随机确定初始聚类中心,不适用于非超球状簇等问题,本文提出了基于多阶段层次聚类和划分... 高维数据聚类是聚类分析中的难点。K-hubs聚类算法是在K-means方法基础上,结合高维数据空间的Hubness现象对数据进行聚类。针对K-hubs聚类算法需要随机确定初始聚类中心,不适用于非超球状簇等问题,本文提出了基于多阶段层次聚类和划分聚类的高维数据混合聚类算法。该算法将数据点按其Hub值分为Hub点,Midhub点和Antihub点三类,然后对Hub点和Midhub点分别采用层次聚类,接着进一步采用层次聚类合并簇,最后,对Antihub点利用划分聚类合并到最近的簇。在UCI数据集上的实验结果表明,与其它最新的聚类算法相比,本文提出的算法在高维数据集上得到了较好的聚类结果。 展开更多
关键词 高维数据 Hubness现象 层次 K-MEANS算法
在线阅读 下载PDF
半监督聚类综述 预览
15
作者 秦悦 丁世飞 《计算机科学》 CSCD 北大核心 2019年第9期15-21,共7页
半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学... 半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学者们致力于将这些为数不多的监督信息运用于聚类,以得到更优的聚类结果,从而提出了半监督聚类。文中主要介绍了半监督聚类的理论基础和算法思想,并对半监督聚类的最新研究进展进行了综述。首先,对半监督学习的研究现状和分类进行了概述,并将生成式半监督学习、半监督SVM、基于图的半监督学习和协同训练这4种分类方法进行了对比;其次,针对半监督学习的聚类进行了详细的描述,并对4种典型半监督聚类算法(Cop-Kmeans算法、LCop-Kmeans算法、Seeded-Kmeans算法和SC-Kmeans算法)的算法思想进行了分析和总结,同时对这4种算法的优缺点进行了评价;然后,按照基于约束的半监督聚类和基于距离的半监督聚类两种情况,分别对半监督聚类的研究现状进行了阐述;最后,探讨了半监督聚类在生物信息学、图像分割以及计算机其他领域内的应用以及未来的研究方向。文中旨在使初学者能够快速了解半监督聚类的进展,理解典型的算法思想,并在之后的实际应用中能起到一定的指导作用。 展开更多
关键词 半监督学习 成对约束 标签 半监督 机器学习
在线阅读 免费下载
融合K-means和CFSFDP的聚类算法 预览
16
作者 李新运 王嘉梅 +1 位作者 张晨阳 王儒 《福建电脑》 2019年第3期1-5,共5页
在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并... 在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并将其作为数据新的特征向量,再次使用CFSFDP算法,对新的ρ_i进行升序排列,以斜率的变化自动选择聚类中心点;再运用K-means算法进行迭代聚类。该算法在UCI数据集上能够又好又快又稳定的聚类。 展开更多
关键词 斜率变化 初始中心 K均值算法 快速峰值搜索算法
在线阅读 下载PDF
基于空谱联合聚类的改进核协同高光谱异常检测 预览
17
作者 马世欣 刘春桐 +2 位作者 李洪才 何祯鑫 王浩 《光子学报》 EI CAS CSCD 北大核心 2019年第1期155-165,共11页
针对空谱信息中普遍存在的异常干扰现象,提出了基于空谱联合聚类的自适应核协同表示高光谱异常目标探测算法.算法充分发挥了基于密度的聚类算子(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)对于异常点的筛... 针对空谱信息中普遍存在的异常干扰现象,提出了基于空谱联合聚类的自适应核协同表示高光谱异常目标探测算法.算法充分发挥了基于密度的聚类算子(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)对于异常点的筛选特性,在DBSCAN聚类去除异常波谱的基础上,采用分波段子集随机投影变换对数据降维处理,以减少谱噪声和谱冗余,并采用DBSCAN聚类消除了局部背景像元中的杂乱点对协同探测算法结果的干扰.研究了背景离散度对核参选择的影响,比较了不同的核估计方法,并提出基于平均差的自适应核协同算法.采用该方法对AVIRIS和ROSIS的三组数据进行仿真实验并与现有算法进行了对比,结果表明该算法表现出较好的探测性能. 展开更多
关键词 高光谱 异常探测 基于密度的算子 自适应核 联合表示理论
在线阅读 免费下载
基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法 预览
18
作者 李顺勇 张苗苗 曹付元 《计算机研究与发展》 EI CSCD 北大核心 2019年第6期1325-1337,共13页
传统的聚类算法一般是对单值属性数据进行聚类.但在许多实际应用中,每个对象通常被多个特征向量所描述.例如,顾客在购物时可能同时购买多个产品.由多个特征向量描述的对象称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集.目前,... 传统的聚类算法一般是对单值属性数据进行聚类.但在许多实际应用中,每个对象通常被多个特征向量所描述.例如,顾客在购物时可能同时购买多个产品.由多个特征向量描述的对象称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集.目前,针对矩阵对象数据聚类算法的研究相对较少,还有很多问题有待解决.利用fuzzy k-modes算法的聚类过程,提出一种基于矩阵对象数据的matrix-object data fuzzy k-modes(MD fuzzy k-modes)聚类算法.该算法结合模糊集的概念引入模糊因子β,重新定义了矩阵对象间的相异性度量,并给出类中心的启发式更新算法.最后,在5个真实数据集上验证了MD fuzzy k-modes算法的有效性,并分析了模糊因子β与隶属度w之间的关系.大数据时代,利用MD fuzzy k-modes算法对多条记录进行聚类,能更易发现顾客的消费偏好,从而做出更有针对性的推荐. 展开更多
关键词 矩阵对象数据 MD FUZZY k-modes算法 相异性度量 中心
在线阅读 下载PDF
K-means型多视图聚类中的初始化问题研究 预览
19
作者 洪敏 贾彩燕 王晓阳 《计算机科学与探索》 CSCD 北大核心 2019年第4期574-585,共12页
在K-means型多视图聚类算法中,最终的聚类结果会受到初始类中心的影响。因此研究了不同的初始中心选择方法对K-means型多视图聚类算法的影响,并提出一种基于采样的主动式初始中心选择方法(sampledclustering by fast search and find of... 在K-means型多视图聚类算法中,最终的聚类结果会受到初始类中心的影响。因此研究了不同的初始中心选择方法对K-means型多视图聚类算法的影响,并提出一种基于采样的主动式初始中心选择方法(sampledclustering by fast search and find of density peaks,SDPC)。该方法通过对数据集进行均匀采样,利用密度峰值快速搜索聚类算法(clustering by fast search and find of density peaks,DPC),以及K-means再迭代策略,进一步改善多视图聚类中的初始中心选择效率和类个数问题。实验验证了不同初始化方法对K-means型多视图聚类算法的影响。多视图基准数据集上的实验结果表明:全局(核)K-means初始化方法存在时间复杂度过高的问题,AFKMC~2(assumption-free K-Markov chain Monte Carlo)初始化适用于大规模数据,DPC可以主动选择类个数和初始类中心,SDPC较DPC而言,不仅能主动式获得类个数,还在聚类精度和效率上取得了较好的折衷。 展开更多
关键词 多视图 初始化
在线阅读 下载PDF
类不平衡数据的卡方聚类算法研究 预览
20
作者 刘欢 胡德敏 《软件》 2019年第4期7-10,共4页
K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是“均匀效应”。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算... K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是“均匀效应”。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算法,利用均值消除受簇均值水平影响的特性度量样本相似性,解决类不平衡数据中“均匀效应”问题,给出了聚类目标函数,形成一种EM型聚类优化算法。在UCI实际数据集上进行了实验,结果表明本文所提出的算法提高了类不平衡数据的聚类精度,降低了“均匀效应”对聚类结果的影响。 展开更多
关键词 数据挖掘 不平衡 卡方距离 均匀效应
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部 意见反馈