期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
使用无标签数据的主成分初始化方法 预览
1
作者 欧军 李玉鑑 沈成恺 《北京工业大学学报》 CAS CSCD 北大核心 2019年第7期654-661,共8页
为了解决初始化方法的不确定性以及有标签数据的不足,提出一种使用无标签数据对网络参数进行主成分初始化的方法,包括采样、主成分计算、初始化和重排卷积核4个步骤.首先,通过移动感受野区域对特征图进行采样,得到与特征图的所有感受野... 为了解决初始化方法的不确定性以及有标签数据的不足,提出一种使用无标签数据对网络参数进行主成分初始化的方法,包括采样、主成分计算、初始化和重排卷积核4个步骤.首先,通过移动感受野区域对特征图进行采样,得到与特征图的所有感受野对应的图像块并形成采样集合;然后,计算采样集合的主成分;最后,使用主成分初始化网络参数并重排卷积核,以便提高识别性能.在相同的网络结构和数据集上,即STL-10和CIFAR-10数据集,该方法比传统的初始化方法在识别准确率上提高了4%~20%.实验结果表明,该方法能够充分利用无标签数据初始化网络参数以取得显著的识别效果.此外,通过算法的性能评估,证明该方法明显优于传统的初始化方法. 展开更多
关键词 初始化方法 网络参数 无标签数据 主成分 采样
在线阅读 下载PDF
基于非线性Logistic模型的改进UDEED算法 预览
2
作者 庄立纯 张正军 +1 位作者 张乃今 李君娣 《计算机工程》 CAS CSCD 北大核心 2019年第7期208-211,共4页
针对UDEED算法中线性Logistic模型分类预测准确率较低的问题,基于泰勒展开式,提出一种多项式核的非线性Logistic模型改进算法。研究非线性Logistic模型的核函数参数估计方法,更新损失函数的计算规则,并利用梯度下降法求解改进UDEED模型... 针对UDEED算法中线性Logistic模型分类预测准确率较低的问题,基于泰勒展开式,提出一种多项式核的非线性Logistic模型改进算法。研究非线性Logistic模型的核函数参数估计方法,更新损失函数的计算规则,并利用梯度下降法求解改进UDEED模型,实现数据集的分类预测。实验结果表明,与UDEED算法相比,改进算法提高了分类预测的准确率。 展开更多
关键词 UDEED算法 非线性Logistic模型 半监督学习 无标签数据 梯度下降
在线阅读 下载PDF
半监督自训练的方面提取 预览
3
作者 曲昭伟 吴春叶 王晓茹 《智能系统学报》 CSCD 北大核心 2019年第4期635-641,共7页
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义... 方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。 展开更多
关键词 方面提取 词向量 半监督 自训练 未标签数据 观点挖掘 种子词 相似词
在线阅读 下载PDF
利用带无标签数据的双支持向量机对恒星光谱分类 预览
4
作者 刘忠宝 雷宇飞 +3 位作者 宋文爱 张静 王杰 屠良平 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2019年第3期948-952,共5页
恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。随着观测设备持续运行和不断改进,人类获得的光谱数量与日俱增。这些海量光谱为人工处理带来了极大挑战。鉴于此,研究人员开始关注数据挖掘算法,并尝试对这些光谱进行数据挖... 恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。随着观测设备持续运行和不断改进,人类获得的光谱数量与日俱增。这些海量光谱为人工处理带来了极大挑战。鉴于此,研究人员开始关注数据挖掘算法,并尝试对这些光谱进行数据挖掘。近年来,神经网络、自组织映射、关联规则等数据挖掘方法广泛应用于恒星光谱分类。在这些方法中,支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。SVM在求解时,通过将其最优化问题转化为具有(QP)形式的凸问题,进而得到全局最优解。尽管该方法在实际应用中表现优良,但为了进一步提高其分类能力,有的学者提出双支持向量机(TSVM)。该方法通过构造两个非平行的分类面将两类分开,每一类靠近某个分类面,而远离另一个分类面。TSVM的计算效率较之传统SVM提高近4倍,因此,自TSVM提出后便受到研究人员的持续关注,并出现若干改进算法。在恒星光谱分类中,一般分类算法都是根据历史观测光谱来建立分类模型,其中最关键的是对光谱进行人工标注,这项工作极为繁琐,且容易犯错。如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。因此,提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。该方法首先将光谱分为训练数据集和测试数据集两部分;然后,在训练集上进行学习,得到分类依据;最后利用分类依据对测试集上的光谱进行验证。继承了双支持向量机的优势,更重要的是,在训练集上学习分类模型过程中,不仅考虑有标记的训练样本,也考虑部分未标记的样本。一方面提高了学习效率,另一方面得到更优的分类模型。在SDSSDR8恒星光谱数据集上的比较实验表明,与支持向量 展开更多
关键词 恒星光谱 智能分类 双支持向量机 无标签数据
在线阅读 下载PDF
精密进给系统热误差的协同训练支持向量机回归建模与补偿方法 预览
5
作者 朱星星 赵亮 +4 位作者 雷默涵 王帅 凌正 杨军 梅雪松 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第10期40-47,共8页
针对精密进给系统热误差的数据稀缺且获取成本高的问题,提出了一种基于协同训练支持向量机回归算法(COSVR)的精密进给系统热误差建模与补偿方法。通过整合标记数据(温度和热误差)及未标记温度数据建立热误差模型,利用基于西门子840D数... 针对精密进给系统热误差的数据稀缺且获取成本高的问题,提出了一种基于协同训练支持向量机回归算法(COSVR)的精密进给系统热误差建模与补偿方法。通过整合标记数据(温度和热误差)及未标记温度数据建立热误差模型,利用基于西门子840D数控系统开发的补偿方法进行补偿。以精密镗床双驱动滚珠丝杠进给系统X轴为研究对象,进行热特性实验,获取24 m/min进给速度下的标记数据和12 m/min进给速度下的未标记温度数据,利用COSVR整合所有数据建立热误差模型,并通过遗传算法优化的支持向量机回归算法(GA-SVR)仅选用标记数据建立对照模型,获取18 m/min进给速度下的标记数据用于模型性能测试。结果表明:与GA-SVR模型相比,COSVR模型的均方根误差减少了34.14%,且在100 min和520 min时的误差范围分别减小了62.62%和55.85%。COSVR模型具有更好的预测性能且能更有效地降低热误差,进一步提高了精密进给系统热误差的建模精度。 展开更多
关键词 精密镗床 进给系统 协同训练 支持向量机回归 无标记数据
在线阅读 下载PDF
基于循环神经网络的时序fMRI数据分类方法研究 被引量:3
6
作者 张兆晨 冀俊忠 《小型微型计算机系统》 CSCD 北大核心 2018年第7期1426-1430,共5页
针对现有分类模型未充分利用fMRI数据时序特性的问题,提出了一种基于循环神经网络(RNN)的时序fMRI数据分类模型.首先,使用任务态有标注数据训练卷积神经网络模型,得到相应网络参数.然后,将有标注数据和无标注数据按时序组合,共同输入... 针对现有分类模型未充分利用fMRI数据时序特性的问题,提出了一种基于循环神经网络(RNN)的时序fMRI数据分类模型.首先,使用任务态有标注数据训练卷积神经网络模型,得到相应网络参数.然后,将有标注数据和无标注数据按时序组合,共同输入到上一步训练好的模型中,以提取全连接层特征.最后,将提取的特征以一个标签一个时间序列的方式组成有序对输入到RNN中,通过训练得到最终的分类模型.在Haxby数据集上的实验结果表明,使用RNN提取fMRI数据时序特征可有效提升模型分类准确率,并且加入休息态无标注数据后,模型分类性能得到了进一步提升. 展开更多
关键词 fMRI数据分类 卷积神经网络 循环神经网络 无标签数据
Exploiting Unlabeled Data for Neural Grammatical Error Detection
7
作者 Zhuo-Ran Liu Yang Liu 《计算机科学技术学报:英文版》 SCIE EI CSCD 2017年第4期758-767,共10页
Identifying and correcting grammatical errors in the text written by non-native writers have received increasingattention in recent years. Although a number of annotated corpora have been established to facilitate dat... Identifying and correcting grammatical errors in the text written by non-native writers have received increasingattention in recent years. Although a number of annotated corpora have been established to facilitate data-driven gram-matical error detection and correction approaches, they are still limited in terms of quantity and coverage because lmmanannotation is labor-intensive, time-consuming, and expensive. In this work, we propose to utilize unlabeled data to trainneural network based graminatical error detection models. The basic idea is to cast error detection ms a binary classificationproblem and derive positive and negative training examples from unlabeled data. We introduce an attention-based neuralnetwork to capture long-distance dependencies that influence the word being detected. Experiments show that the proposedapproach significantly outperforms SVM and convolutional networks with fixed-size context window. 展开更多
关键词 unlabeled data GRAMMATICAL ERROR detection NEURAL NETWORK
一种基于Tri-training的数据流集成分类算法 预览 被引量:3
8
作者 胡学钢 马利伟 李培培 《数据采集与处理》 CSCD 北大核心 2017年第5期853-860,共8页
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未... 数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。 展开更多
关键词 数据流分类 TRI-TRAINING 未标记数据 集成 加权投票
在线阅读 下载PDF
疾病-病症和病症-治疗物质的关系抽取研究 预览 被引量:1
9
作者 冯钦林 杨志豪 林鸿飞 《计算机工程与应用》 CSCD 北大核心 2017年第10期251-257,共7页
随着生物医学文献的快速增长,在海量的生物医学文献中存在大量有关疾病、病症和治疗物质的信息,这些信息对疾病的治疗和药物的研制有着重要的意义。针对疾病与治疗物质之间的信息抽取,重点训练两个模型,即疾病与病症模型和病症与治... 随着生物医学文献的快速增长,在海量的生物医学文献中存在大量有关疾病、病症和治疗物质的信息,这些信息对疾病的治疗和药物的研制有着重要的意义。针对疾病与治疗物质之间的信息抽取,重点训练两个模型,即疾病与病症模型和病症与治疗物质模型。疾病与病症模型判断一种疾病是否会存在或者导致一种生理现象的产生;病症与治疗物质模型判断一种物质是否改变人的生理现象或者生理过程。使用半监督学习的Tri-training的方法,利用大量未标注数据辅助少量有标注数据进行训练提高分类性能。实验结果表明,Tri-training方法中利用未标注数据有助于提高实验结果;且在训练过程中使用集成学习的思想将三个分类器器集成在一起,提高了学习性能。 展开更多
关键词 信息抽取 半监督学习 TRI-TRAINING 集成学习
在线阅读 下载PDF
基于改进粒子群优化的无标记数据鲁棒聚类算法 预览 被引量:3
10
作者 茹蓓 朱楠 贺新征 《计算机应用研究》 CSCD 北大核心 2017年第6期1626-1630,1635共6页
已有的聚类算法大多仅考虑单一的目标,导致对某些形状的数据集性能较弱,为此提出一种基于改进粒子群优化的无标记数据鲁棒聚类算法。优化阶段:首先采用多目标粒子群优化的经典形式生成聚类解集合;然后使用K-means算法生成随机分布... 已有的聚类算法大多仅考虑单一的目标,导致对某些形状的数据集性能较弱,为此提出一种基于改进粒子群优化的无标记数据鲁棒聚类算法。优化阶段:首先采用多目标粒子群优化的经典形式生成聚类解集合;然后使用K-means算法生成随机分布的初始化种群,并为其分配随机初始化的速度;最终,采用maximin策略确定帕累托最优解。决策阶段:测量帕累托解集与理想解的距离,将距离最短的帕累托解作为最终聚类解。对比实验结果表明,本算法对不同形状的数据集均可获得较优的类簇数量,对目标问题的复杂度具有较好的鲁棒性。 展开更多
关键词 多目标粒子群优化 聚类算法 鲁棒性 帕累托最优解 无标记数据
在线阅读 下载PDF
面向不完全标记数据流的集成分类算法 预览 被引量:1
11
作者 王中心 孙刚 王浩 《阜阳师范学院学报:自然科学版》 2016年第3期46-52,共7页
实际数据流中许多数据是无标签的,且其中隐含着不同类型的概念漂移。为此,本文提出了一种面向不完全标记数据流的集成分类算法,该算法利用K均值聚类算法标记无标签实例,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,同时动态地... 实际数据流中许多数据是无标签的,且其中隐含着不同类型的概念漂移。为此,本文提出了一种面向不完全标记数据流的集成分类算法,该算法利用K均值聚类算法标记无标签实例,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,同时动态地更新分类模型以适应数据流环境的变化。实验结果表明,本文提出的算法能够在类传播过程中具有较高标记正确率,又能从噪音中识别出不同类型的概念漂移。 展开更多
关键词 数据流 分类 集成模型 不完全标记 概念漂移
在线阅读 免费下载
Combining supervised classifiers with unlabeled data 预览
12
作者 刘雪艳 张雪英 +1 位作者 李凤莲 黄丽霞 《中南大学学报:英文版》 SCIE EI CAS CSCD 2016年第5期1176-1182,共7页
Ensemble learning is a wildly concerned issue.Traditional ensemble techniques are always adopted to seek better results with labeled data and base classifiers.They fail to address the ensemble task where only unlabele... Ensemble learning is a wildly concerned issue.Traditional ensemble techniques are always adopted to seek better results with labeled data and base classifiers.They fail to address the ensemble task where only unlabeled data are available.A label propagation based ensemble(LPBE) approach is proposed to further combine base classification results with unlabeled data.First,a graph is constructed by taking unlabeled data as vertexes,and the weights in the graph are calculated by correntropy function.Average prediction results are gained from base classifiers,and then propagated under a regularization framework and adaptively enhanced over the graph.The proposed approach is further enriched when small labeled data are available.The proposed algorithms are evaluated on several UCI benchmark data sets.Results of simulations show that the proposed algorithms achieve satisfactory performance compared with existing ensemble methods. 展开更多
关键词 监督分类 标记 集成学习 自适应增强 集成技术 函数计算 仿真结果 集成方法
在线阅读 免费下载
Crowdsourcing label quality: a theoretical analysis
13
作者 WANG Wei ZHOU Zhi-Hua 《中国科学:信息科学(英文版)》 SCIE EI CSCD 2015年第11期109-120,共12页
Crowdsourcing has been an effective and efficient paradigm for providing labels for large-scale unlabeled data. In the past few years, many methods have been developed for inferring labels from the crowd,but few theor... Crowdsourcing has been an effective and efficient paradigm for providing labels for large-scale unlabeled data. In the past few years, many methods have been developed for inferring labels from the crowd,but few theoretical analyses have been presented to support this popular human-machine interaction process.In this paper, we theoretically study the quality of labels inferred from crowd workers by majority voting and provide an analysis of label quality that shows that the label error rate decreases exponentially with the number of workers selected for each task. We also study the problem of eliminating low-quality workers from the crowd,and provide a conservative condition for eliminating low-quality workers without eliminating any non-low-quality worker with high probability. We also provide an aggressive condition for eliminating all low-quality workers with high probability. 展开更多
关键词 数据标签 质量分析 低质量 人机交互 工人 人群 错误率 概率
向上学习方法改进移进-归约中文句法分析 预览 被引量:1
14
作者 朱慕华 王会珍 朱靖波 《中文信息学报》 CSCD 北大核心 2015年第2期33-39,共7页
基于移进一归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进一归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标... 基于移进一归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进一归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进一归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进一归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进一归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。 展开更多
关键词 中文句法分析 移进-归约分析 伯克利句法分析器 向上学习 无标注数据
在线阅读 下载PDF
基于遗传算法的噪声过滤协同训练算法 预览 被引量:1
15
作者 郭涛 李贵洋 兰霞 《计算机工程与设计》 CSCD 北大核心 2014年第5期1807-1810,1832共5页
为解决分类器训练过程中由于无标记数据的引入,容易产生噪音、降低分类精度的问题,提出了基于遗传算法的噪声过滤协同训练算法(CGA)。充分利用遗传算法的寻优功能,产生高适应度的分类规则,达到辅助协同训练算法挑选有价值的无标... 为解决分类器训练过程中由于无标记数据的引入,容易产生噪音、降低分类精度的问题,提出了基于遗传算法的噪声过滤协同训练算法(CGA)。充分利用遗传算法的寻优功能,产生高适应度的分类规则,达到辅助协同训练算法挑选有价值的无标记数据,降低噪音的引入,确保参与协同训练分类器的精度和性能得到有效更新的目的。在UCI数据集上的实验验证了该算法的有效性。 展开更多
关键词 遗传算法 半监督学习 协调训练 噪声过滤 无标记数据
在线阅读 下载PDF
基于双向选择调整策略的半监督聚类算法 预览
16
作者 刘明 宣照国 吴江宁 《计算机技术与发展》 2013年第2期1-6,10共7页
半监督聚类算法通常利用标注数据优化类别描述参数(如类的中心),然后通过类别描述参数划分无标注数据的类别,但是没有考虑标注数据对其周围无标注数据的类别划分的直接作用。文中提出一种双向选择调整策略,在根据类别描述参数对数... 半监督聚类算法通常利用标注数据优化类别描述参数(如类的中心),然后通过类别描述参数划分无标注数据的类别,但是没有考虑标注数据对其周围无标注数据的类别划分的直接作用。文中提出一种双向选择调整策略,在根据类别描述参数对数据进行类别划分之后,利用标注数据调整其周围未标注数据的类别标签,从而提高类别划分的准确度。该方法根据标注数据周围的数据密度来动态确定数据调整范围,并采用新的相似度计算方法提高被调整的数据准确度。文中利用双向选择调整策略改进了基于多项式模型的半监督聚类算法和半监督模糊聚类算法,并使用多个标准数据集进行实验。实验结果表明改进的算法有效提高了半监督聚类的准确性。 展开更多
关键词 半监督聚类 未标注数据 标注数据 相似度 多项式模型 模糊聚类
在线阅读 下载PDF
基于流形正则化的支持向量机文本分类 预览 被引量:11
17
作者 袁爱领 齐伟 钱旭 《软件》 2013年第2期65-68,共4页
支持向量机(Support Vector Machine,SVM)是一种Vapnik等在统计学理论的基础上发展起来的可训练机器学习的方法。它主要针对小样本的机器学习,具有泛化性能好、高维操作方便、适应性强、全局优化、训练时间短、理论完备等特点,因... 支持向量机(Support Vector Machine,SVM)是一种Vapnik等在统计学理论的基础上发展起来的可训练机器学习的方法。它主要针对小样本的机器学习,具有泛化性能好、高维操作方便、适应性强、全局优化、训练时间短、理论完备等特点,因此得到了日益广泛的应用和研究。本文将半监督学习算法应用到基于支持向量机的文本分类技术弘。中,提出了一组基于几何正则化方式的学习算法。虽然这种新型算法适用于无监督到完全监督的整个范围,本文专注于半监督学习算法方面的研究。之后,本文讨论了新型方法在SVM算法上的扩展。实验数据表明,这种新型算法可以有效的使用未标记数据。 展开更多
关键词 半监督学习 正则化 核方法 流形学习 无标签数据 支持向量机 图谱轮
在线阅读 下载PDF
基于分歧的半监督学习 预览 被引量:37
18
作者 周志华 《自动化学报》 EI CSCD 北大核心 2013年第11期1871-1878,共8页
传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习... 传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢?为此,半监督学习成为近十多年来机器学习的一大研究热点.基于分歧的半监督学习是该领域的主流范型之一,它通过使用多个学习器来对未标记数据进行利用,而学习器间的“分歧”对学习成效至关重要.本文将综述简介这方面的一些研究进展. 展开更多
关键词 机器学习 半监督学习 基于分歧的半监督学习 未标记数据
在线阅读 下载PDF
基于聚类学习算法的网络入侵检测研究 预览 被引量:4
19
作者 谢卓 《现代电子技术》 2012年第2期 91-93,99,共4页
目前的入侵检测系统存在着在先验知识较少的情况下推广能力差的问题。在入侵检测系统中应用聚类算法,使得入侵检测系统在先验知识少的条件下仍具有良好的推广能力。首先介绍入侵检测研究的发展概况和聚类算法;接着提出了基于聚类算法... 目前的入侵检测系统存在着在先验知识较少的情况下推广能力差的问题。在入侵检测系统中应用聚类算法,使得入侵检测系统在先验知识少的条件下仍具有良好的推广能力。首先介绍入侵检测研究的发展概况和聚类算法;接着提出了基于聚类算法的入侵检测方法;然后以KDD99这类常用的入侵检测数据为例,讨论了该方法的工作过程;最后将计算机仿真结果进行了分析。通过实验和比较发现,基于聚类学习算法的入侵检测系统能够比较有效地检测真实网络数据中的未知入侵行为。 展开更多
关键词 入侵检测 网络安全 数据挖掘 聚类 无类标数据
在线阅读 下载PDF
基于图的半监督协同训练算法 预览 被引量:5
20
作者 郭涛 李贵洋 兰霞 《计算机工程》 CAS CSCD 2012年第13期163-165,168共4页
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提... 在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。 展开更多
关键词 半监督学习 协同训练 置信度 分类 无标记数据
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部 意见反馈