期刊文献+
共找到1,476篇文章
< 1 2 74 >
每页显示 20 50 100
基于流式计算的遥感卫星数据快视处理方法 预览
1
作者 宋峣 孙小涓 +2 位作者 胡玉新 雷斌 卢晓军 《计算机工程与应用》 CSCD 北大核心 2019年第10期77-82,共6页
随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数... 随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数据快视处理数据流特点的基础上,应用Storm框架对现有系统进行并行优化,设计遥感数据流处理任务拓扑结构,同时利用消息队列中间件Kafka改进处理单元间数据交换和数据缓存方式。实验表明,该系统在数据吞吐率和可靠性方面测试效果良好。 展开更多
关键词 流式计算 数据流 STORM 快视处理 遥感数据处理
在线阅读 下载PDF
基于流式计算的空间科学卫星数据实时处理 预览
2
作者 孙小涓 石涛 +3 位作者 胡玉新 佟继周 李冰 宋峣 《计算机应用》 CSCD 北大核心 2019年第6期1563-1568,共6页
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基... 针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。 展开更多
关键词 流式计算 数据流 STORM 空间科学卫星 数据处理
在线阅读 下载PDF
数据流频繁模式挖掘综述 预览
3
作者 韩萌 丁剑 《计算机应用》 CSCD 北大核心 2019年第3期719-727,共9页
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进... 一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。 展开更多
关键词 数据流 数据流挖掘 频繁模式挖掘 序列模式挖掘 高效用模式挖掘
在线阅读 下载PDF
支持Unikernel的流式计算引擎:Hummer 预览
4
作者 李冰 张志斌 +1 位作者 钟巧灵 程学旗 《计算机学报》 EI CSCD 北大核心 2019年第8期1755-1766,共12页
社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感... 社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感,数据价值随着处理时长的增长而快速递减.传统流式计算引擎设计中,操作系统、JVM等占用大量计算资源,如何提升计算资源利用率成为目前亟待解决的问题.为此,本文提出了一种基于C++语言实现的支持Unikernel的高性能实时数据分析计算引擎Hummer.首先,通过引入Unikernel机制,Hummer可绕过传统操作系统,直接运行于裸机或虚拟化层,减少传统操作系统无关组件带来的性能开销,支持分布式环境下的快速部署与启动,为高性能大数据计算引擎设计提出新的思路.其次,通过使用Unikernel对计算引擎进行封装,解决了C++应用需本地化编译、难以在集群中部署的问题.最后,系统使用灵活的网络通信方案,支持异构网络部署及网络资源隔离.实验表明,Hummer端到端处理延迟低于30ms,较Flink系统低2倍,较Spark Streaming低15.8倍,且吞吐量达到Flink的2倍.使用Unikernel封装的Hummer系统镜像仅为100MB,启动时间约为2s. 展开更多
关键词 大数据 数据流 分布式计算 流处理系统 微内核操作系统
在线阅读 下载PDF
基于Hadoop平台的轨道交通能效管理系统的建设方案 预览 被引量:1
5
作者 陈莉莉 张赛桥 狄颖琪 《自动化仪表》 CAS 2019年第1期36-38,共3页
随着城市轨道交通线网化进程和海量数据的累积,挖掘能效数据的潜在价值以提升地铁能效管理水平、实现节能降耗,对地铁的经济运行具有重要意义。对基于Hadoop平台实现轨道交通能效管理系统的建设方案进行了研究,并分别以历史数据和实时... 随着城市轨道交通线网化进程和海量数据的累积,挖掘能效数据的潜在价值以提升地铁能效管理水平、实现节能降耗,对地铁的经济运行具有重要意义。对基于Hadoop平台实现轨道交通能效管理系统的建设方案进行了研究,并分别以历史数据和实时流数据的数据流和功能框图,具体说明了系统的实现方式。给出了基于Hadoop平台的能效管理系统的车站、线路、线网的三层式建设方式,以及组成模块的框架图,并按数据的在线和离线两种方式给出模块的实现方法。同时,在轨道交通能效管理平台中实现了大数据技术的首次应用。应用结果表明,基于Hadoop平台的大数据方案提高了地铁运营的能效管理水平。随着数据量积累和数据分析的深入,该管理系统必将具有更加广阔的应用前景。 展开更多
关键词 城市轨道交通 能效管理 节能潜力 数据仓库 数据挖掘 能耗分析 大数据 流处理
在线阅读 下载PDF
基于粗糙集与人工蜂群算法的动态特征选择 预览
6
作者 高薇 解辉 《计算机工程与设计》 北大核心 2019年第9期2697-2703,共7页
为提高动态数据流特征提取的计算效率与性能,设计一种基于粗糙集与人工蜂群算法的动态数据流特征选择算法。修改人工蜂群算法中雇佣蜂阶段与侦查蜂阶段的位置更新方程,降低人工蜂群算法早熟收敛的几率,增强人工蜂群算法的鲁棒性,使其满... 为提高动态数据流特征提取的计算效率与性能,设计一种基于粗糙集与人工蜂群算法的动态数据流特征选择算法。修改人工蜂群算法中雇佣蜂阶段与侦查蜂阶段的位置更新方程,降低人工蜂群算法早熟收敛的几率,增强人工蜂群算法的鲁棒性,使其满足动态特征选择算法的稳定性需要。使用粗糙集定义数据流增量数据的适应度函数,人工蜂群算法从旧特征子集与增量数据提取新的全局特征子集。基于10个公开的数据集分别进行特征提取与分类实验,实验结果表明,该算法在保持较高分类准确率的前提下,明显减少了特征数量,实现了较高的动态特征计算效率。 展开更多
关键词 数据流 大数据 特征选择 粗糙集 人工蜂群算法
在线阅读 下载PDF
差分隐私的数据流关键模式挖掘方法 预览
7
作者 王金艳 刘陈 +2 位作者 傅星珵 罗旭东 李先贤 《软件学报》 EI CSCD 北大核心 2019年第3期648-666,共19页
频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背... 频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背景知识增强攻击者的推理能力,所以从包含个人信息的数据流中挖掘关键模式比静态场景下更容易泄露隐私.分析指出了数据流关键模式挖掘的隐私泄露问题及原理,并提出了一种满足差分隐私的数据流关键模式挖掘算法DP-CPM,该算法在每个时间戳设计一种两阶段机制:差异计算阶段和噪音挖掘阶段.该机制既考虑了隐私和数据效用之间的权衡,又考虑了挖掘时间和维护开销之间的权衡.为了提高数据流中连续发布时的数据效用性,在第1 阶段通过计算差异来决定当前时间戳是返回低噪音统计值还是精确的近似统计值.如果是返回低噪音统计值,算法进入噪音挖掘阶段.在噪音挖掘阶段,首先通过判断查询集筛选出关键模式候选集,然后通过给筛选出的候选集里的模式支持度加入服从拉普拉斯分布的随机噪音,得到最终的噪音支持度.最后,给出了严格的理论分析和大量的实验,表明DP-CPM 算法的有效性和执行效率. 展开更多
关键词 关键模式 数据流 差分隐私 数据挖掘 隐私泄露
在线阅读 下载PDF
基于流计算大数据技术的通用实时信令数据处理平台解决方案 预览
8
作者 李赛红 胡徐胜 《辽宁工业大学学报:自然科学版》 2019年第4期222-226,共5页
为满足企业决策者低成本高效率的通过获取、分析用户各种行为实时产生的各类信令事件的要求,提出了Flume-ng+Kafka+Storm+Esper+ZooKeeper+Redis等流计算大数据技术的通用实时信令事件处理平台的解决方案。以流计算处理引擎作为底层支撑... 为满足企业决策者低成本高效率的通过获取、分析用户各种行为实时产生的各类信令事件的要求,提出了Flume-ng+Kafka+Storm+Esper+ZooKeeper+Redis等流计算大数据技术的通用实时信令事件处理平台的解决方案。以流计算处理引擎作为底层支撑,采用分布式集群部署,支持多信令事件数据的接入、信令规则的创建与规则解析处理以及最终结果的实时输出,对企业的快速反应、风险控制、实时处理具有深远的意义。 展开更多
关键词 大数据 流式计算 分布式 实时信令数据处理
在线阅读 下载PDF
基于EMD距离的数据流分布式相似性连接技术 预览
9
作者 许嘉 宋超 +1 位作者 吕品 李陶深 《计算机学报》 EI CSCD 北大核心 2019年第8期1779-1796,共18页
随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和... 随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和欧氏距离,EMD距离(Earth Mover’s Distance)因其可以更准确地量化直方图元组之间的相似性而受到广泛关注,被广泛应用于解决基于内容的图像检索、冗余图像识别以及视频对象跟踪等重要应用问题.然而EMD距离的计算复杂度却高达三次方,阻碍了EMD距离在数据流相似性连接问题中的应用.该文基于开源的Apache Storm数据流分布式并行处理框架,设计并实现了基于EMD距离的数据流分布式相似性连接技术,命名为EMD-DDSJ技术.该技术在数据分发时维护了连接计算节点上的数据局部性,并基于该数据局部性增强了连接算法对不相似直方图元组对间EMD计算的过滤性能,提高了各个连接计算节点的执行效率.同时基于连接计算节点的代价模型,提出了基于反馈的负载均衡策略,有效提升EMD-DDSJ技术的整体执行性能.在真实数据集上的实验结果展示了该文提出的EMD-DDSJ技术的高效性和可扩展性,比相关最好的技术在处理吞吐率上最高提升了1.4倍,在元组平均处理延迟上最多降低了44%,并且随着相似性阈值或滑动窗口大小的增大该提升比率还会进一步增大. 展开更多
关键词 EMD距离 相似性连接 数据流 APACHE Storm框架 数据局部性
在线阅读 下载PDF
基于快速高效用项集挖掘的大规模消息流预测算法研究与应用 预览
10
作者 穆晓芳 邓红霞 +1 位作者 郭虎升 赵鹏 《计算机应用与软件》 北大核心 2019年第11期243-249,共7页
为了提高大规模消息流话题预测的准确性与效率,提出基于高效用项集挖掘的消息流话题预测算法.计算时间窗口中词汇的内部效用与外部效用,根据会话内所有词汇的效用计算最小效用值;采用高效用项集挖掘算法产生候选话题模式集,随之提取最... 为了提高大规模消息流话题预测的准确性与效率,提出基于高效用项集挖掘的消息流话题预测算法.计算时间窗口中词汇的内部效用与外部效用,根据会话内所有词汇的效用计算最小效用值;采用高效用项集挖掘算法产生候选话题模式集,随之提取最终的话题模式.为了提高高效用项集挖掘的时间效率与存储效率,设计三角项集效用树保存项集的效用信息,设计话题搜索树保存候选话题模式集.最终基于真实消息流数据集进行实验,结果显示该算法有效地提高了话题预测的准确率,并且实现了较快的响应时间. 展开更多
关键词 高效用项集挖掘 频繁项集挖掘 数据流 话题预测 大数据 网络安全
在线阅读 下载PDF
一种多样性和精度加权的数据流集成分类算法 预览
11
作者 张本才 王志海 孙艳歌 《智能系统学报》 CSCD 北大核心 2019年第1期179-185,共7页
为了克服数据流中概念漂移对分类的影响,提出了一种基于多样性和精度加权的集成分类方法(diversity and accuracy weighting ensemble classification algorithm, DAWE),该方法与已有的其他集成方法不同的地方在于,DAWE同时考虑了多样... 为了克服数据流中概念漂移对分类的影响,提出了一种基于多样性和精度加权的集成分类方法(diversity and accuracy weighting ensemble classification algorithm, DAWE),该方法与已有的其他集成方法不同的地方在于,DAWE同时考虑了多样性和精度这两种度量标准,将分类器在最新数据块上的精度及其在集成分类器中的多样性进行线性加权,以此来衡量一个分类器对于当前集成分类器的价值,并将价值度量用于基分类器替换策略。提出的DAWE算法与MOA中最新算法分别在真实数据和人工合成数据上进行了对比实验,实验表明,提出的方法是有效的,在所有数据集上的平均精度优于其他算法,该方法能有效处理数据流挖掘中的概念漂移问题。 展开更多
关键词 数据流 概念漂移 多样性 精度 集成学习 数据块 价值度量 MOA
在线阅读 下载PDF
Optimization RFID-enabled Retail Store Management with Complex Event Processing
12
作者 Shang-Lian Peng Ci-Jian Liu +2 位作者 Jia He Hong-Nian Yu Fan Li 《国际自动化与计算杂志:英文版》 EI CSCD 2019年第1期52-64,共13页
Radio frequency identification(RFID)enabled retail store management needs workflow optimization to facilitate real-time decision making.In this paper,complex event processing(CEP)based RFID-enabled retail store manage... Radio frequency identification(RFID)enabled retail store management needs workflow optimization to facilitate real-time decision making.In this paper,complex event processing(CEP)based RFID-enabled retail store management is studied,particularly focusing on automated shelf replenishment decisions.We define different types of event queries to describe retailer store workflow action over the RFID data streams on multiple tagging levels(e.g.,item level and container level).Non-deterministic finite automata(NFA)based evaluation models are used to detect event patterns.To manage pattern match results in the process of event detection,optimization algorithm is applied in the event model to share event detection results.A simulated RFID-enabled retail store is used to verify the effectiveness of the method,experiment results show that the algorithm is effective and could optimize retail store management workflow. 展开更多
关键词 Complex EVENT processing(CEP) radio frequency identification(RFID) Internet of THINGS data STREAM supply chain RETAIL STORE
A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning
13
作者 Yanxia Lv Sancheng Peng +4 位作者 Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《清华大学学报自然科学版(英文版)》 EI CAS CSCD 2019年第4期379-388,共10页
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this ... By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 展开更多
关键词 big data STREAM classification ONLINE BAGGING ensemble LEARNING concept DRIFT
基于 Storm的实时大规模传感器监控平台的开发和实现 预览
14
作者 周煜敏 王鹏 汪卫 《计算机应用与软件》 北大核心 2019年第12期7-11,28,共6页
随着云计算的发展,实时流数据处理应用程序得到了越来越广泛的应用。在物联网的场景中,大量传 感器对实时查询要求很高。然而传感器监控分析师对编码技术缺乏经验,而且现有处理平台也缺乏对多查询处 理支持和原始数据先验信息的利用。... 随着云计算的发展,实时流数据处理应用程序得到了越来越广泛的应用。在物联网的场景中,大量传 感器对实时查询要求很高。然而传感器监控分析师对编码技术缺乏经验,而且现有处理平台也缺乏对多查询处 理支持和原始数据先验信息的利用。为了应对这些挑战,开发实现一种轻量级的高效解决方案,以支持在大量传 感器上滑动窗口上的聚合计算。专业分析师可以利用自定义脚本构建自己的流式计算逻辑,系统将其转化为 Storm的流处理程序,并且利用提出的分区算法在分布式实时环境中高效执行多个查询。实验结果表明:该系统 可以有效提高分析师的工作效率,提出的分区算法也有效平衡工作节点之间的负载以满足大规模的应用。 展开更多
关键词 云计算 物联网 大数据 实时计算 流处理 滑动窗口
在线阅读 下载PDF
基于McDiarmid不等式的决策树分类算法
15
作者 贾涛 韩萌 +1 位作者 王少峰 邢成 《山西大学学报:自然科学版》 CAS 北大核心 2019年第4期718-728,共11页
大多数处理数据流的决策树方法是基于Hoeffding不等式设计的。但是Hoeffding不等式本身只能处理数值数据流,并且在属性度量方面存在不足。为了解决这个问题,文章在Hoeffding不等式算法的基础上引入McDiarmid不等式,将二者融合并做了相... 大多数处理数据流的决策树方法是基于Hoeffding不等式设计的。但是Hoeffding不等式本身只能处理数值数据流,并且在属性度量方面存在不足。为了解决这个问题,文章在Hoeffding不等式算法的基础上引入McDiarmid不等式,将二者融合并做了相应的改进作为新的属性度量选择,提出了一种基于McDiarmid不等式的新决策树分类算法,即McTree。该算法使用ε/2进行属性分类度量来提高分类性能。在真实与虚拟数据流上的实验结果表明,McTree与经典算法相比,在分类精度升高或几乎保持不变的情况下,生成树的规模明显降低。其中生成树节点数平均降低70%左右,树层数平均降低50%左右。 展开更多
关键词 数据流 分类算法 决策树 Hoeffding不等式 McDiarmid不等式
基于k-d树分区的聚类算法并行加速策略 预览
16
作者 汪丽娟 钱育蓉 +3 位作者 侯海耀 张晗 赵京霞 赵燚 《计算机工程与设计》 北大核心 2019年第12期3437-3442,共6页
针对传统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划... 针对传统K-Means算法存在准确率低、聚类速度慢的问题,从K-Means算法优化和Flink框架并行层面对K-Means算法优化。为避免算法陷入局部最优解,采用质心间最大距离原则选出k个质心;为提高大数据量下的K-Means聚类速度,提出用k-d树算法划分数据集实现操作算子并行化,设置多个TaskManager数目和CPU核数加速F-KMeans算法的执行。实验结果表明,较K-Means算法,F-KMeans算法的准确率提高了约3.6%;F-KMeans算法在DataSource耗时降低了45.45%,在其余阶段耗时平均降低了约28.57%。 展开更多
关键词 数据分区 加速策略 性能优化 并行化 流式计算
在线阅读 下载PDF
集成基于EP的分类器用于数据流入侵检测 预览
17
作者 陈猛 《河南科技》 2019年第19期11-12,共2页
本文提出了一种集成基于EP的分类器用于数据流入侵检测的模型EEPCDS(Ensemble of EP-based Classifiers on Data Stream)。该模型选择滑动窗口中的多个时间段数据来生成多个EP分类器,并且通过加权投票表决对未知样本进行分类,检测入侵... 本文提出了一种集成基于EP的分类器用于数据流入侵检测的模型EEPCDS(Ensemble of EP-based Classifiers on Data Stream)。该模型选择滑动窗口中的多个时间段数据来生成多个EP分类器,并且通过加权投票表决对未知样本进行分类,检测入侵行为。EEPCDS能适应数据流环境下的概念漂移,并且能实现较好的目标类召回率和精度的平衡,以及较高的分类准确率。 展开更多
关键词 入侵检测 EP 数据流
在线阅读 下载PDF
FAAD:an unsupervised fast and accurate anomaly detection method for a multi-dimensional sequence over data stream
18
作者 Bin Li Yi-jie WANG +2 位作者 Dong-sheng YANG Yong-mou LI Xing-kong MA 《信息与电子工程前沿:英文版》 SCIE EI CSCD 2019年第3期388-404,共17页
Recently, sequence anomaly detection has been widely used in many fields. Sequence data in these fields are usually multi-dimensional over the data stream. It is a challenge to design an anomaly detection method for a... Recently, sequence anomaly detection has been widely used in many fields. Sequence data in these fields are usually multi-dimensional over the data stream. It is a challenge to design an anomaly detection method for a multi-dimensional sequence over the data stream to satisfy the requirements of accuracy and high speed. It is because:(1) Redundant dimensions in sequence data and large state space lead to a poor ability for sequence modeling;(2) Anomaly detection cannot adapt to the high-speed nature of the data stream, especially when concept drift occurs, and it will reduce the detection rate. On one hand, most existing methods of sequence anomaly detection focus on the single-dimension sequence. On the other hand, some studies concerning multi-dimensional sequence concentrate mainly on the static database rather than the data stream. To improve the performance of anomaly detection for a multi-dimensional sequence over the data stream, we propose a novel unsupervised fast and accurate anomaly detection(FAAD) method which includes three algorithms. First, a method called "information calculation and minimum spanning tree cluster" is adopted to reduce redundant dimensions. Second, to speed up model construction and ensure the detection rate for the sequence over the data stream, we propose a method called"random sampling and subsequence partitioning based on the index probabilistic suffix tree." Last, the method called "anomaly buffer based on model dynamic adjustment" dramatically reduces the effects of concept drift in the data stream. FAAD is implemented on the streaming platform Storm to detect multi-dimensional log audit data.Compared with the existing anomaly detection methods, FAAD has a good performance in detection rate and speed without being affected by concept drift. 展开更多
关键词 Data STREAM MULTI-DIMENSIONAL SEQUENCE ANOMALY detection Concept DRIFT Feature selection
Load Shedding Strategy Based on Combined Feed-Forward Plus Feedback Control over Data Streams 预览
19
作者 Donghong Han Yi Fang +3 位作者 Daqing Yi Yifei Zhang Xiang Tang Guoren Wang 《北京理工大学学报:英文版》 EI CAS 2019年第3期437-446,共10页
In data stream management systems (DSMSs), how to maintain the quality of queries is a difficult problem because both the processing cost and data arrival rates are highly unpredictable. When the system is overloaded,... In data stream management systems (DSMSs), how to maintain the quality of queries is a difficult problem because both the processing cost and data arrival rates are highly unpredictable. When the system is overloaded, quality degrades significantly and thus load shedding becomes necessary. Unlike processing overloading in the general way which is only by a feedback control (FB) loop to obtain a good and stable performance over data streams, a feedback plus feed-forward control (FFC) strategy is introduced in DSMSs, which have a good quality of service (QoS) in the aspects of miss ratio and processing delay. In this paper, a quality adaptation framework is proposed, in which the control-theory-based techniques are leveraged to adjust the application behavior with the considerations of the current system status. Compared to previous solutions, the FFC strategy achieves a good quality with a waste of fewer resources. 展开更多
关键词 data STREAM management systems (DSMSs) load SHEDDING feedback CONTROL FEED-FORWARD CONTROL quality of service (QoS)
在线阅读 免费下载
多模式速度移动节点的动态距离估计方法
20
作者 秦宁宁 朱树才 《控制工程》 CSCD 北大核心 2019年第3期596-601,共6页
针对传感器网络中目标节点移动速度的不确定性,给距离估计带来了现实挑战,论文提出了改进的基于滑动窗口匹配的动态距离估计方法。通信过程中,节点通过对信号强度(Received Signal Strength Indicator,RSSI)的测量,分析确定信号强度与时... 针对传感器网络中目标节点移动速度的不确定性,给距离估计带来了现实挑战,论文提出了改进的基于滑动窗口匹配的动态距离估计方法。通信过程中,节点通过对信号强度(Received Signal Strength Indicator,RSSI)的测量,分析确定信号强度与时间(Received Signal Strength Indicator-Time,RSSI-T)的映射关系。基于此,在移动过程中,对实时获得的RSSI数据流进行在线线性处理,通过滑动窗口模式进行匹配,实现在匀速,匀变速和变加速多模式速度下的高精度动态距离估计。经实验测试,该方法在克服RSSI数据不确定性的同时,能对多模式速度的移动目标节点进行误差小于2.6%的动态距离估计。 展开更多
关键词 不确定性 动态距离估计 数据流 滑动窗口 模式匹配
上一页 1 2 74 下一页 到第
使用帮助 返回顶部 意见反馈
新型冠状病毒肺炎防控与诊疗专栏