教育论文网

强化学习中离策略算法的分析及研究

硕士博士毕业论文站内搜索    
分类:教育论文网→工业技术论文→自动化技术、计算机技术论文自动化基础理论论文人工智能理论论文
强化学习中离策略算法的分析及研究
论文目录
 
中文摘要第1-6页
Abstract第6-10页
第一章 绪论第10-21页
  · 引言第10-12页
  · 论文选题与意义第12-13页
  · 国内外研究现状第13-17页
    · 强化学习研究现状第14-16页
    · 离策略算法研究现状第16-17页
  · 本文的研究内容及贡献第17-19页
  · 本文的组织结构第19-21页
第二章 相关工作第21-35页
  · 马尔科夫决策过程第21-24页
  · 强化学习中的经典算法第24-34页
    · 动态规划第24-27页
    · 策略搜索算法第27-28页
    · 时间差分算法第28-34页
  · 本章小结第34-35页
第三章 基于线性函数逼近的离策 Q(Λ)算法第35-52页
  · 离策略强化学习第35-41页
    · 梯度下降法与线性函数逼近第35-38页
    · 离策略强化学习算法第38-41页
  · GDOP-Q(Λ)算法第41-45页
    · GDOP-Q(λ)第41-42页
    · 收敛性分析第42-45页
  · 实验结果分析第45-51页
  · 本章小结第51-52页
第四章 基于二阶 TD-ERROR 的 Q(Λ)算法第52-67页
  · 二阶 TD ERROR 快速 Q(Λ)算法第52-61页
    · 二阶 TD Error第52-54页
    · 资格迹第54-55页
    · SOE-FQ(λ)第55-56页
    · 算法收敛性及时间复杂度分析第56-61页
  · 实验结果分析第61-66页
  · 本章小结第66-67页
第五章 基于值函数迁移的快速 Q-LEARNING 算法第67-81页
  · 自模拟度量与状态之间的距离第68-70页
  · 基于值函数迁移的 Q-LEARNING 算法第70-74页
    · 基于自模拟度量的值函数迁移第71-73页
    · VFT-Q-Learning第73-74页
  · 实验结果分析第74-80页
  · 本章小结第80-81页
第六章 离策略带参贝叶斯强化学习算法第81-95页
  · 高斯过程第81-82页
  · 基于高斯过程的离策略带参近似策略迭代算法第82-90页
    · 基于高斯过程的值函数参数估计第82-87页
    · 基于 VPI 的动作选择方法第87-88页
    · GP-OPPAPI第88-90页
  · 实验结果分析第90-94页
  · 本章小结第94-95页
第七章 总结与展望第95-98页
  · 总结第95-96页
  · 展望第96-98页
参考文献第98-105页
博士期间相关科研情况第105-107页
致谢第107-108 页

本篇论文共108页,点击这进入下载页面
 
更多论文
强化学习中离策略算法的分析及研究
标量和矢量部分相干光束的理论及实
不同弹性模量静电纺丝聚氨酯纤维支
MiR-150对内皮祖细胞促深静脉血栓溶
Tim-3在胃癌免疫细胞上表达的临床意
基于介电湿润效应的微液滴驱动机理
减毒沙门氏菌为载体的CEACAM6联合4
分孔径同时偏振成像光学系统的研究
二能级原子与光场超强耦合系统的动
SF/SA/HAp复合水凝胶研究及其生物相
通过铁盐催化的ATRP方法制备磁性/近
马克思恩格斯生态权益思想研究
白头翁皂苷主要活性成分的药代动力
慢性阻塞性肺疾病合并肺结核患者体
CD40在溃疡性结肠炎发病机制中作用
脊髓HMGB1在大鼠炎性痛中的作用
HGF/c-Met相关信号通路在大鼠肝脏祖
慢病毒介导PTL基因干预的星形胶质细
本科教学评价的后现代主义反思
基于联合因子分析的耳语音说话人识
文档级统计机器翻译的研究
自由曲面镜片的模拟评价方法及优化
以氮杂环为配体的配合物的合成、结
层间模板法制备柱撑蒙脱石材料及其
双(三氮唑甲基)苯柔性配体配位聚
基于非碘氧化还原对及固态电解质染
基于混合多糖增稠剂的天然纤维织物
晚清民初石版印刷艺术研究
红花对大鼠急性脊髓损伤后保护机制
KIR基因对异基因造血干细胞移植预后
生长分化因子15(GDF-15)对缺氧诱
HO-1基因转染脂肪间充质干细胞在支
EphA5在先天性甲状腺功能减低大鼠脑
eNOS基因转染对大鼠小体积肝移植缺
丝素蛋白仿生支架调控嗅鞘细胞生物
血小板裂解液复合脂肪来源干细胞促
髂静脉支架植入后局部流场的PIV测试
跟骨关节内骨折微创治疗的基础和临
基于乳腺X线图像的计算机辅助诊断方
终末期肾脏病的血小板凋亡及多囊肾
垂体柄的显微应用解剖及其在鞍区肿
3号染色体短臂抑癌基因CpG岛甲基化
PHBV改性及其作为软骨组织工程支架
武侠文化基本叙事语法研究--以“射
十七世纪世情小说的伦理研究
清代传本苏州弹词方言助词研究
《金瓶梅词话》颜色词计量研究
英语中的汉语借词研究--接触语言学
都市文化:危机及拯救
南京国民政府社团法制研究
历史与构境:从解释学走向出场学之
在权利与秩序之间:新自由主义与新
“国家—社会”关系视野下的中国社
结构、情境与行动者:中东北非阿拉
形式法治论
行政失权问题研究
现代汉语书面语教学研究
 
强化学习论文 离策略论文 函数近似论文 自模拟度量论文 值函数迁移论文 策略迭代论文 贝叶斯推理论文
版权申明:目录由用户y**提供,www.51papers.com仅收录目录,作者需要删除这篇论文目录请点击这里
| 设为首页||加入收藏||站内搜索引擎||站点地图||在线购卡|
版权所有 教育论文网 Copyright(C) All Rights Reserved