期刊文献+
共找到324篇文章
< 1 2 17 >
每页显示 20 50 100
基于MDP的分簇水声网络TDMA协议 预览
1
作者 肖星星 张阳 +1 位作者 黄海宁 张扬帆 《网络新媒体技术》 2019年第6期48-54,共7页
TDMA协议是固定分配时隙的MAC协议,由于水声信道具有传播延迟高、带宽窄等特点,水声网络协议的效率较低。本文针对分簇网络结构提出一种基于马尔可夫决策过程(MDP)的动态分配时隙的MDP-TDMA协议,该协议根据簇成员节点的本地信息来计算... TDMA协议是固定分配时隙的MAC协议,由于水声信道具有传播延迟高、带宽窄等特点,水声网络协议的效率较低。本文针对分簇网络结构提出一种基于马尔可夫决策过程(MDP)的动态分配时隙的MDP-TDMA协议,该协议根据簇成员节点的本地信息来计算下一轮所需要的时隙数,减少了成员节点与簇头节点的信息交换,节省了信道资源的同时减轻了簇头节点的负担。仿真实验结果表明,与传统TDMA协议相比,MDP-TDMA协议在网络生存周期、网络吞吐量及丢包率等性能上得到了提升。 展开更多
关键词 水声网络 TDMA协议 马尔可夫决策 时隙分配 吞吐量
在线阅读 下载PDF
基于增强学习算法的AGV导航研究 预览
2
作者 王翔 吴洪明 周星 《起重运输机械》 2019年第12期40-45,共6页
AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题。近年来,近似强化学习和策略梯度算法等增强学习方法的提出和改进为有效解决维数灾难和泛化问题以及AGV... AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题。近年来,近似强化学习和策略梯度算法等增强学习方法的提出和改进为有效解决维数灾难和泛化问题以及AGV反应导航问题提供新的方法和手段。文中首先分析了AGV的运动环境模型,并建立了马尔可夫决策过程模型。在此基础上结合神经网络和策略梯度下降法,提出了一种基于Actor-Critic算法框架的AGV导航算法,并利用Matlab仿真验证了算法的适用性。 展开更多
关键词 增强学习算法 AGV导航 马尔可夫决策 MATLAB仿真
在线阅读 下载PDF
基于能效和服务质量保障的动态资源分配机制 预览
3
作者 杨健 张晶 《无线电通信技术》 2018年第1期78-81,共4页
以最小化平均消耗功率为目标,提出了一种具有服务质量保障的用户调度和功率分配机制。每个用户维持一个用于存储随机到达业务的数据队列,用户的服务质量要求被刻画成平均排队时延。基于无线信道和数据队列长度的动态变化,将用户调度和... 以最小化平均消耗功率为目标,提出了一种具有服务质量保障的用户调度和功率分配机制。每个用户维持一个用于存储随机到达业务的数据队列,用户的服务质量要求被刻画成平均排队时延。基于无线信道和数据队列长度的动态变化,将用户调度和功率分配刻画成一个带有约束条件的马尔可夫决策问题。为了应对系统难以精确获取信道和数据到达过程分布参数的情况,采用Q学习算法求解马尔科夫决策问题,进而提出了一种在线学习的用户调度和功率控制算法。系统通过在线学习进行用户调度和功率分配,以实现平均消耗功率的最小化目标。 展开更多
关键词 用户调度 功率控制 服务质量要求 马尔可夫决策 Q学习
在线阅读 下载PDF
基于马尔可夫决策的应急物资动态分配模型 被引量:3
4
作者 詹沙磊 傅培华 +1 位作者 李修琳 叶永 《控制与决策》 CSCD 北大核心 2018年第7期1312-1318,共7页
研究供需不平衡环境下的应急物资动态分配问题.考虑到台风灾害演变导致应急物资需求不断增长与应急物资供应相对紧缺之间的矛盾,将需求的演变设计成一个马尔可夫决策过程,建立基于马尔可夫决策的应急物资动态分配模型.通过二进制粒子群... 研究供需不平衡环境下的应急物资动态分配问题.考虑到台风灾害演变导致应急物资需求不断增长与应急物资供应相对紧缺之间的矛盾,将需求的演变设计成一个马尔可夫决策过程,建立基于马尔可夫决策的应急物资动态分配模型.通过二进制粒子群优化算法求解,最后将所提出模型应用于某台风发生时的救灾实例.实例分析表明,马尔可夫决策方法可以动态地做出合适的需求扑灭策略,使得整体的需求演变趋势保持平稳,整体的需求水平降到最低. 展开更多
关键词 应急物流 物资分配 台风灾害 马尔可夫决策 粒子群算法
循环经济下随机再制造系统的最优库存策略研究 预览
5
作者 高春燕 《管理工程学报》 CSSCI CSCD 北大核心 2017年第1期118-125,共8页
本文主要研究循环经济下连续性盘存的随机再制造系统的最优控制问题。在顾客到达时间间隔、回收品到达时间间隔、制造和再制造过程都服从不同参数的指数分布时,建立了无限期折扣总成本准则下的马尔可夫决策模型,并通过系统的最优方程,... 本文主要研究循环经济下连续性盘存的随机再制造系统的最优控制问题。在顾客到达时间间隔、回收品到达时间间隔、制造和再制造过程都服从不同参数的指数分布时,建立了无限期折扣总成本准则下的马尔可夫决策模型,并通过系统的最优方程,分析得到了最优策略的结构解析性质。最优制造策略是一类依赖于回收品库存水平的动态阈值策略,且阈值水平是关于回收品库存水平的非增函数;且满足回收品每增加一个单位,阈值水平至多减少一个单位。回收品的准入策略是阈值策略,其中阈值水平是关于产成品库存水平的减函数,且产成品库存水平每增加一个单位,阈值水平至多减少一个单位。论文还进一步研究了系统在平均成本准则下和缺货不补系统的最优控制策略,结果表明系统具有和无限期折扣期望总成本准则模型相同的结构性质。 展开更多
关键词 循环经济 再制造系统 库存控制 结构性质 马尔可夫决策
在线阅读 下载PDF
具有能量收集功能的无线中继网络资源分配 预览 被引量:1
6
作者 杨健 张晶 霍彦奇 《无线电通信技术》 2017年第6期16-19,27共5页
针对具有能量收集功能的无线中继网络,通过分析有限能量存储约束和能量消耗的因果约束对资源分配的影响,提出了基于马尔科夫决策的功率分配算法以最大化中继网络的吞吐量。所提算法根据无线信道状态信息和电池容量信息对功率分配进行动... 针对具有能量收集功能的无线中继网络,通过分析有限能量存储约束和能量消耗的因果约束对资源分配的影响,提出了基于马尔科夫决策的功率分配算法以最大化中继网络的吞吐量。所提算法根据无线信道状态信息和电池容量信息对功率分配进行动态调整,合理利用收集到的绿色能源,实现网络吞吐量的极大提升。对具有不同能量收集效率的场景进行了仿真,验证了所提算法的优越性。 展开更多
关键词 能量收集 无线中继网络 资源分配 马尔可夫决策
在线阅读 下载PDF
马尔可夫决策问题的关键状态优先学习算法 预览
7
作者 白尘 《中国管理信息化》 2016年第7期198-202,共5页
针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,... 针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。 展开更多
关键词 马尔可夫决策 关键状态 决策收益率 关键状态优先学习算法
在线阅读 下载PDF
电动汽车电池建模及放电管理研究 预览 被引量:2
8
作者 程方晓 李腾飞 王旭 《长春工业大学学报:自然科学版》 CAS 2016年第2期159-164,共6页
基于电池的额定容量效应和恢复效应的特性,采用脉冲放电策略建立电池组随机模型,马尔可夫决策过程理论和线性规划理论对电池组的放电能量均衡问题进行仿真控制。
关键词 电池模型 脉冲放电 马尔可夫决策 线性规划
在线阅读 下载PDF
基于马尔可夫决策过程的机会网络转发策略 预览 被引量:3
9
作者 张杨 王小明 +1 位作者 林亚光 张丹 《计算机科学与探索》 CSCD 北大核心 2016年第1期82-92,共11页
在机会网络节点随机移动的场景中,提高路由算法性能评价中的投递率,控制开销率,降低平均迟延是持续的研究方向。由于目前机会网络结构稀疏和拓扑多变,单副本路由转发策略效率较低。通过结合花粉布朗运动与机会网络节点的随机运动的相似... 在机会网络节点随机移动的场景中,提高路由算法性能评价中的投递率,控制开销率,降低平均迟延是持续的研究方向。由于目前机会网络结构稀疏和拓扑多变,单副本路由转发策略效率较低。通过结合花粉布朗运动与机会网络节点的随机运动的相似性,并分析节点随机运动的规律,定义了一种基于马尔可夫决策过程的节点转发策略。该策略在平均延时适当增加的情况下,可以有效控制网络开销率,提高消息投递率。最后通过仿真实验验证了理论模型的正确性。 展开更多
关键词 机会网络 马尔可夫决策 投递率
在线阅读 下载PDF
Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles
10
作者 SUN ChangHao DUAN HaiBin 《中国科学:技术科学英文版》 SCIE EI CAS CSCD 2015年第8期1392-1400,共9页
作为到竞争决策的生物学的主要贡献之一,进化游戏理论为学习合作的进化提供一个有用工具。为了为无人的天线车辆(UAV ) 完成最佳的答案,那正在执行一项察觉到的任务,这份报纸论述进化游戏(MDEG ) 基于学习的一个 Markov 决定算法。... 作为到竞争决策的生物学的主要贡献之一,进化游戏理论为学习合作的进化提供一个有用工具。为了为无人的天线车辆(UAV ) 完成最佳的答案,那正在执行一项察觉到的任务,这份报纸论述进化游戏(MDEG ) 基于学习的一个 Markov 决定算法。在算法的每个个人跟随 Markov 决定策略对众所周知的 Tit-for-Tat 策略最大化它的发薪。模拟结果证明基于的 MDEG 理论有效地来临改进队的集体发薪。建议算法不能仅仅获得最好的行动顺序而且独立于比赛持续时间的一条非最优的 Markov 政策。而且,纸也在 self-regarded UAV 的进化学习合作的出现。它是 MDEG 的适应能力的结果表演基于在合作的出现应该被归因于的 Tit-for-Tat 策略的复仇和宽恕之间的途径以及完美的平衡。 展开更多
关键词 演化博弈论 无人机 博弈理论 马氏决策 协同感知 马尔可夫决策 学习算法 无人飞行器
基于马尔可夫决策的理性秘密共享方案 预览 被引量:2
11
作者 田有亮 王雪梅 刘琳芳 《通信学报》 EI CSCD 北大核心 2015年第9期222-229,共8页
基于马尔可夫决策理论研究理性密码共享系统模型和秘密重构方法。首先利用马尔可夫决策方法,提出适合于理性秘密共享的系统模型,该模型包括参与者集合、状态集合、风险偏好函数、状态转移函数、回报函数等。在模型中,引入秘密重构中的... 基于马尔可夫决策理论研究理性密码共享系统模型和秘密重构方法。首先利用马尔可夫决策方法,提出适合于理性秘密共享的系统模型,该模型包括参与者集合、状态集合、风险偏好函数、状态转移函数、回报函数等。在模型中,引入秘密重构中的参与者的风险偏好函数刻画秘密共享模型的状态集合和状态转移函数。其次,基于所提出的系统模型构造相应的理性秘密共享方案,基于马尔可夫策略解决各理性参与者在秘密共享方案中的秘密重构问题。最后对方案进行理论分析证明,给出理性秘密重构方案中折扣因子、回报函数、参与者风险偏好函数间的函数关系,其结果表明所提系统模型方法的合理性和有效性。 展开更多
关键词 理性秘密共享 马尔可夫决策 博弈论 折扣因子 风险偏好函数
在线阅读 下载PDF
基于Markov决策过程的数据中心人员配置 预览
12
作者 杜刚 陆璟莹 +1 位作者 胡裴培 江志斌 《工业工程与管理》 CSSCI 北大核心 2014年第6期99-104,共6页
如何合理分配人员,减少忙闲差异,接应处理繁多而复杂且具有随机性的任务,同时控制成本支出,一直是数据中心急需解决的难题。分析了当前数据中心基础运营过程中,各类性质任务到达和人员配置的若干种状态组合,对可采取的行动和行动后的下... 如何合理分配人员,减少忙闲差异,接应处理繁多而复杂且具有随机性的任务,同时控制成本支出,一直是数据中心急需解决的难题。分析了当前数据中心基础运营过程中,各类性质任务到达和人员配置的若干种状态组合,对可采取的行动和行动后的下一步状态,比较可能带来的成本变化,建立了通用的马尔可夫人员配置决策模型。最后,针对一个实际的数据中心基础人员配置案例,通过数据分析和仿真,形成相关推荐配置,以便为相关的管理部门提供决策依据。 展开更多
关键词 基础运营 人员配置 马尔可夫决策
在线阅读 下载PDF
计算机系统与计算机网络中的动态优化:模型、求解与应用 预览 被引量:3
13
作者 杨晓庆 《计算机光盘软件与应用》 2014年第9期108-108,110共2页
对计算机系统与计算机网络进行资源分配以及任务调度使用的理论工具是动态优化。当前,随着计算系统以及计算网络的发展,国内外已经对计算机系统以及计算机网络中的动态优化进行深度的研究,以期能够对实际的应用有所帮助。本文通过马... 对计算机系统与计算机网络进行资源分配以及任务调度使用的理论工具是动态优化。当前,随着计算系统以及计算网络的发展,国内外已经对计算机系统以及计算机网络中的动态优化进行深度的研究,以期能够对实际的应用有所帮助。本文通过马尔可夫决策从模型、求解、应用方面对计算机系统与计算机网络展开讨论。 展开更多
关键词 计算机系统 计算机网络 动态优化 马尔可夫决策
在线阅读 下载PDF
Performance Evaluation and Dynamic Optimization of Speed Scaling on Web Servers in Cloud Computing 被引量:1
14
作者 Yuan Tian Chuang Lin +2 位作者 Zhen Chen Jianxiong Wan Xuehai Peng 《清华大学学报:自然科学英文版》 EI CAS 2013年第3期298-307,共10页
The energy consumption in large-scale data centers is attracting more and more attention today with the increasing data center energy costs making the enhanced performance very expensive. This is becoming a bottleneck... The energy consumption in large-scale data centers is attracting more and more attention today with the increasing data center energy costs making the enhanced performance very expensive. This is becoming a bottleneck to further developments in terms of both scale and performance of cloud computing. Thus, the reduction of the energy consumption by data centers is becoming a key research topic in green IT and green computing. The web servers providing cloud service computing run at various speeds for different scenarios. By shifting among these states using speed scaling, the energy consumption is proportional to the workload, which is termed energy-proportionality. This study uses stochastic service decision nets to investigate energy-efficient speed scaling on web servers. This model combines stochastic Petri nets with Markov decision process models. This enables the model to dynamically optimize the speed scaling strategy and make performance evaluations. The model is graphical and intuitive enough to characterize complicated system behavior and decisions. The model is service-oriented using the typical service patterns to reduce the complex model to a simple model with a smaller state space. Performance and reward equivalent analyse substantially reduces the system behavior sub-net. The model gives the optimal strategy and evaluates performance and energy metrics more concisely. 展开更多
关键词 Web服务器 计算性能 优化速度 绩效评价 缩放 随机PETRI网 马尔可夫决策 状态空间模型
并联式混合动力汽车能量管理的马尔可夫决策 预览 被引量:7
15
作者 肖仁鑫 李涛 +1 位作者 秦颖 邹敢 《西南交通大学学报》 EI CSCD 北大核心 2012年第6期982-988,共7页
为研究同轴并联式混合动力汽车的能量管理策略,建立了同轴并联式动力系统动态方程,分析了转矩需求无后效性的马尔可夫特性.在维持电池容量不变的条件下,以燃油消耗最小为优化目标,采用马尔可夫决策实施能量管理策略,并采用策略迭代方法... 为研究同轴并联式混合动力汽车的能量管理策略,建立了同轴并联式动力系统动态方程,分析了转矩需求无后效性的马尔可夫特性.在维持电池容量不变的条件下,以燃油消耗最小为优化目标,采用马尔可夫决策实施能量管理策略,并采用策略迭代方法求解了马尔可夫能量管理的转矩决策过程,在J1015工况和昆明工况进行了仿真,实现了能量管理的在线实施.结果表明,与基于动态规划的能量管理策略相比,马尔可夫决策的能量管理策略能在线实施,且电池容量变化更为平稳;在燃料消耗方面是全局次优的,在J1015行驶工况下100 km燃油消耗增加了1.32 L,在昆明行驶工况下100 km燃油消耗增加了1.59 L. 展开更多
关键词 能量管理 马尔可夫决策 动态规划 并联式混合动力汽车
在线阅读 下载PDF
多UCAV任务分配有限阶段MDP方法和算法 预览 被引量:1
16
作者 何鹏 周德云 王谦 《火力与指挥控制》 CSCD 北大核心 2012年第10期99-101,104共4页
多UCAV(Unmanned Combat Air Vehicle)任务分配是无人机作战决策的重要内容。是一类求解困难的组合优化问题,目前尚无成熟高效的解决方案。通过马尔可夫决策过程(MDP)将任务分配问题化解为分阶段序列决策过程,并对当前阶段决策状... 多UCAV(Unmanned Combat Air Vehicle)任务分配是无人机作战决策的重要内容。是一类求解困难的组合优化问题,目前尚无成熟高效的解决方案。通过马尔可夫决策过程(MDP)将任务分配问题化解为分阶段序列决策过程,并对当前阶段决策状态采用单一整数编码,提出了基于有限阶段MDP的求解算法。通过仿真实验表明:该算法可以快速精确地解决多UCAV任务分配的问题。 展开更多
关键词 无人作战飞机 马尔可夫决策 任务分配 组合优化
在线阅读 下载PDF
基于支持向量回归机的黄金价格短期预测 被引量:2
17
作者 李莹 高岩 +2 位作者 范丽亚 张凤霞 张凡龙 《数学的实践与认识》 CSCD 北大核心 2011年第24期 1-6,共6页
针对黄金价格时间序列的特点,首先结合马尔可夫决策思想对数据集进行相空间重构处理,然后利用支持向量机技术建立黄金价格走势的短期预测模型,最后对上海黄金交易所AU9999的预测结果表明所建模型可以有效地进行黄金价格的短期预测.
关键词 黄金价格 预测 支持向量机 相空间重构 马尔可夫决策
异构无线网中面向QoS的马尔可夫选择策略 预览 被引量:1
18
作者 杨森 汤红波 柏溢 《计算机工程与应用》 CSCD 北大核心 2011年第16期 117-119,130,共4页
针对移动终端在异构网络环境下,需要在垂直切换过程中进行网络选择的问题,提出一种面向QoS的马尔可夫选择决策算法,通过对算法模型合理化构建过程与异构环境特点的紧密结合、报酬函数的正确定义与求解,可以为用户选择合适的接入网络,最... 针对移动终端在异构网络环境下,需要在垂直切换过程中进行网络选择的问题,提出一种面向QoS的马尔可夫选择决策算法,通过对算法模型合理化构建过程与异构环境特点的紧密结合、报酬函数的正确定义与求解,可以为用户选择合适的接入网络,最大程度地满足在异构网络环境中用户QoS的长期效益。仿真结果表明,该算法可以有效提高判决水平,改善业务的QoS。 展开更多
关键词 马尔可夫决策 垂直切换 异构网络 服务质量(Qos)
在线阅读 下载PDF
High throughput relay policy in wireless cooperative relaying networks based on stochastic control theory
19
作者 LI Yong HOU Yi-bin +1 位作者 HUANG Zhang-qin WEI Yi-fei 《中国邮电高校学报:英文版》 EI CSCD 2011年第4期1-6,共6页
这份报纸在在哪儿的无线合作中继网络建议一个分布式的继电器和调整和编码计划(MCS ) 选择适应调整并且编码(AMC ) 计划被使用。一阶的有限状态的 Markov 隧道(FSMC ) 被用来为无线隧道建模并且做预言。继电器政策的目的是旨在最大化整... 这份报纸在在哪儿的无线合作中继网络建议一个分布式的继电器和调整和编码计划(MCS ) 选择适应调整并且编码(AMC ) 计划被使用。一阶的有限状态的 Markov 隧道(FSMC ) 被用来为无线隧道建模并且做预言。继电器政策的目的是旨在最大化整个传播时期的产量根据他们的隧道状态信息(CSI ) 在每时间槽在不同选择之中选择一个继电器和 MCS。继电器和 MCS 选择的过程能作为打折的 Markov 决定链,和继电器政策被提出能在随机的控制算法与最近的进展被获得。模拟结果被介绍显示出建议计划的有效性。 展开更多
关键词 吞吐量 中继 无线 控制理论 网络 协作 随机 马尔可夫决策
有限阶段马尔可夫决策的可变限速控制模型 被引量:16
20
作者 王薇 杨兆升 赵丁选 《交通运输工程学报》 EI CSCD 北大核心 2011年第5期 109-114,共6页
分析了高速公路主线可变限速控制的作用,研究了现有的限速方法,将高速公路主线可变限速控制过程看作是离散时间的马尔可夫决策过程,提出基于强化学习与有限阶段马尔可夫决策的可变限速控制模型,通过与交通环境的交互学习进行模型的动态... 分析了高速公路主线可变限速控制的作用,研究了现有的限速方法,将高速公路主线可变限速控制过程看作是离散时间的马尔可夫决策过程,提出基于强化学习与有限阶段马尔可夫决策的可变限速控制模型,通过与交通环境的交互学习进行模型的动态调整。采用有限阶段向后递归迭代的算法对模型进行求解,运用Paramics仿真软件对长吉高速公路全程进行仿真。仿真结果表明:在平均限速值低于设计时速6.25%的情况下,平均流量不仅没有降低反而增加了3.20%。可见,该模型可以有效提高交通流量,改善高速公路主线的交通状况。 展开更多
关键词 交通信息工程 变限速控制 马尔可夫决策 强化学习 高速公路主线
上一页 1 2 17 下一页 到第
使用帮助 返回顶部 意见反馈