Related Work and Future Challenges
本文介绍了一种新的机器学习框架,通过迭代计算低维表示和近似最优策略来解决称为马尔科夫决策过程(MDPs)的顺序决策问题。本文提出了一个统一的数学框架,用于学习MDPs中的表示和最优控制,该框架基于一类称为Laplacians的奇异算子,其矩阵表示具有非正对角线元素和零行和。折现和平均回报的MDP的精确解是用Laplacian的广谱逆表示的,称为Drazin逆。提出了一种称为表示策略迭代(RPI)的通用算法,该算法交织计算低维表示和近似最优策略。描述了两种基于几何和奖励敏感正则化的MDP降维方法,其中低维表示是由拉普拉斯算子的对角化或扩张形成的。提出了基于模型和无模型的RPI算法的变体;还在离散和连续MDP上对它们进行了实验比较。最后概述了未来工作的一些方向。
序列决策问题
拉普拉斯算子和MDPs
马尔科夫决策过程的逼近
MDPs中的降维原则
基数构建。对角线化方法
基准构建。扩张方法
基于模型的表示策略迭代
连续MDP中的基数构建
无模型表示的策略迭代
相关工作和未来挑战
相关文库
计算机行业:AIGC行业应用畅想-华福证券
2808
类型:行研
上传时间:2023-04
标签:计算机、AIGC)
语言:中文
金额:5积分
零信任SaaS,美国经验与中国特色-20200802-天风证券-42页
2657
类型:行研
上传时间:2020-08
标签:计算机、saas)
语言:中文
金额:免费
计算机行业安全服务:网络安全行业的制高点-20210221-方正证券-64页
2377
类型:行研
上传时间:2021-02
标签:计算机、网络安全)
语言:中文
金额:免费
2021年IEEE高新能计算论文合集
2367
类型:学习教育
上传时间:2021-05
标签:高性能计算、学术、计算机)
语言:中文
金额:30积分
计算机行业专题研究:MES深度报告下篇,7大海外巨头,6家中国领军全梳理-20201015-天风证券-55页
2276
类型:行研
上传时间:2020-10
标签:计算机、MES)
语言:中文
金额:免费
计算机行业:信创产业发展研究-20220510-东吴证券-84页
1725
类型:行研
上传时间:2022-05
标签:计算机、信创)
语言:中文
金额:免费
计算机行业对于低代码工具发展的思考:AI降低软件使用门槛,交付自动化提升工具价值
1605
类型:行研
上传时间:2023-06
标签:计算机、AI、低代码)
语言:中文
金额:5积分
计算机行业:工业软件,研究框架-20200618-华泰证券-132页
1472
类型:行研
上传时间:2020-07
标签:计算机、工业软件、券商报告)
语言:中文
金额:免费
2020年高考志愿填报全解析—计算机行业报考热门专业、院校及前景(免费
1291
类型:专题
上传时间:2020-07
标签:高考志愿填报、计算机)
语言:中文
金额:5积分
2023年中国服务器操作系统行业市场研究报告
1291
类型:行研
上传时间:2023-03
标签:服务器、操作系统、计算机)
语言:中文
金额:5积分
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册