载入中...
强化学习中离策略算法的分析及研究
硕士博士毕业论文站内搜索
全站论文库
硕士博士论文库
普通期刊论文库
分类:
教育论文网
→工业技术论文→
自动化技术、计算机技术论文
→
自动化基础理论论文
→
人工智能理论论文
强化学习中离策略算法的分析及研究
论文目录
中文摘要
第1-6页
Abstract
第6-10页
第一章 绪论
第10-21页
· 引言
第10-12页
· 论文选题与意义
第12-13页
· 国内外研究现状
第13-17页
· 强化学习研究现状
第14-16页
· 离策略算法研究现状
第16-17页
· 本文的研究内容及贡献
第17-19页
· 本文的组织结构
第19-21页
第二章 相关工作
第21-35页
· 马尔科夫决策过程
第21-24页
· 强化学习中的经典算法
第24-34页
· 动态规划
第24-27页
· 策略搜索算法
第27-28页
· 时间差分算法
第28-34页
· 本章小结
第34-35页
第三章 基于线性函数逼近的离策 Q(Λ)算法
第35-52页
· 离策略强化学习
第35-41页
· 梯度下降法与线性函数逼近
第35-38页
· 离策略强化学习算法
第38-41页
· GDOP-Q(Λ)算法
第41-45页
· GDOP-Q(λ)
第41-42页
· 收敛性分析
第42-45页
· 实验结果分析
第45-51页
· 本章小结
第51-52页
第四章 基于二阶 TD-ERROR 的 Q(Λ)算法
第52-67页
· 二阶 TD ERROR 快速 Q(Λ)算法
第52-61页
· 二阶 TD Error
第52-54页
· 资格迹
第54-55页
· SOE-FQ(λ)
第55-56页
· 算法收敛性及时间复杂度分析
第56-61页
· 实验结果分析
第61-66页
· 本章小结
第66-67页
第五章 基于值函数迁移的快速 Q-LEARNING 算法
第67-81页
· 自模拟度量与状态之间的距离
第68-70页
· 基于值函数迁移的 Q-LEARNING 算法
第70-74页
· 基于自模拟度量的值函数迁移
第71-73页
· VFT-Q-Learning
第73-74页
· 实验结果分析
第74-80页
· 本章小结
第80-81页
第六章 离策略带参贝叶斯强化学习算法
第81-95页
· 高斯过程
第81-82页
· 基于高斯过程的离策略带参近似策略迭代算法
第82-90页
· 基于高斯过程的值函数参数估计
第82-87页
· 基于 VPI 的动作选择方法
第87-88页
· GP-OPPAPI
第88-90页
· 实验结果分析
第90-94页
· 本章小结
第94-95页
第七章 总结与展望
第95-98页
· 总结
第95-96页
· 展望
第96-98页
参考文献
第98-105页
博士期间相关科研情况
第105-107页
致谢
第107-108 页
本篇论文共
108
页,
点击这进入下载页面
。
更多论文
强化学习中离策略算法的分析及研究
标量和矢量部分相干光束的理论及实
不同弹性模量静电纺丝聚氨酯纤维支
MiR-150对内皮祖细胞促深静脉血栓溶
Tim-3在胃癌免疫细胞上表达的临床意
基于介电湿润效应的微液滴驱动机理
减毒沙门氏菌为载体的CEACAM6联合4
分孔径同时偏振成像光学系统的研究
二能级原子与光场超强耦合系统的动
SF/SA/HAp复合水凝胶研究及其生物相
通过铁盐催化的ATRP方法制备磁性/近
马克思恩格斯生态权益思想研究
白头翁皂苷主要活性成分的药代动力
慢性阻塞性肺疾病合并肺结核患者体
CD40在溃疡性结肠炎发病机制中作用
脊髓HMGB1在大鼠炎性痛中的作用
HGF/c-Met相关信号通路在大鼠肝脏祖
慢病毒介导PTL基因干预的星形胶质细
本科教学评价的后现代主义反思
基于联合因子分析的耳语音说话人识
文档级统计机器翻译的研究
自由曲面镜片的模拟评价方法及优化
以氮杂环为配体的配合物的合成、结
层间模板法制备柱撑蒙脱石材料及其
双(三氮唑甲基)苯柔性配体配位聚
基于非碘氧化还原对及固态电解质染
基于混合多糖增稠剂的天然纤维织物
晚清民初石版印刷艺术研究
红花对大鼠急性脊髓损伤后保护机制
KIR基因对异基因造血干细胞移植预后
生长分化因子15(GDF-15)对缺氧诱
HO-1基因转染脂肪间充质干细胞在支
EphA5在先天性甲状腺功能减低大鼠脑
eNOS基因转染对大鼠小体积肝移植缺
丝素蛋白仿生支架调控嗅鞘细胞生物
血小板裂解液复合脂肪来源干细胞促
髂静脉支架植入后局部流场的PIV测试
跟骨关节内骨折微创治疗的基础和临
基于乳腺X线图像的计算机辅助诊断方
终末期肾脏病的血小板凋亡及多囊肾
垂体柄的显微应用解剖及其在鞍区肿
3号染色体短臂抑癌基因CpG岛甲基化
PHBV改性及其作为软骨组织工程支架
武侠文化基本叙事语法研究--以“射
十七世纪世情小说的伦理研究
清代传本苏州弹词方言助词研究
《金瓶梅词话》颜色词计量研究
英语中的汉语借词研究--接触语言学
都市文化:危机及拯救
南京国民政府社团法制研究
历史与构境:从解释学走向出场学之
在权利与秩序之间:新自由主义与新
“国家—社会”关系视野下的中国社
结构、情境与行动者:中东北非阿拉
形式法治论
行政失权问题研究
现代汉语书面语教学研究
强化学习论文
离策略论文
函数近似论文
自模拟度量论文
值函数迁移论文
策略迭代论文
贝叶斯推理论文
版权申明
:目录由用户
y**
提供,
www.51papers.com
仅收录目录,作者需要删除这篇论文目录
请点击这里
。
|
设为首页
||
加入收藏
||
站内搜索引擎
||
站点地图
||
在线购卡
|
版权所有
教育论文网
Copyright(C) All Rights Reserved