|
1主要要求
1.1 环境要求
对不同的应用场景进行梳理,提供具有通用接口设计的仿真环境,允许比较不同的强化学习算法。并通过仿真环境测试实际系统。具体包括:环境的使用方式,环境对外统一的自定义接口规范等。
1.2 观察
强化学习是典型的“智能体-环境”循环实现,交互时智能体选择一个行动,环境返回一个观察和奖励值。
1.3 空间
用来描述有效的动作和观察,是环境的属性,智能体与环境交互时可以直接根据环境提供给系统的接口进行交互。
1.4 策略
策略的输入为状态和动作,并返回在输入状态的情况下采取输入动作的概率。
2 运行设计
2.1 环境配置
环境配置主要是对初始状态的基本环境信息进行配置,有加区分对不同状态进行学习和挖掘,提升强化学习算法实验的结果。
2.2 可视化展示
实时可视化展示当前场景的相关环境信息,便于开发人员观察效果,并对算法进行相应的调优工作。
2.3 交互规范
智能体与环境进行交互可分为两类:人机交互和自动交互。
a) 人机交互, 人根据系统设计相应的交互方式和系统进行交互,而机器则直接依据智能算法生成相应的策略进行输出,并在界面上动态显示
标准编号:T/JSIA 0003-2020
标准名称:基于强化学习的智能化决策系统标准
英文名称:Intelligent Decision System Standard Based on Reinforcement Learning
发布部门:江苏省软件行业协会
发布日期:2020-02-28
实施日期:2020-02-28
标准状态:现行
起草单位:江苏万维艾斯网络智能产业创新中心有限公司
起草人员:高阳、杜宇峰、彭戈、孟凡、杨尚东、刘勇、董绍康、陈佳瑞、陈茹茹、王黎成、陈境、顾娟
文件格式:PDF
文件页数:11页
文件大小:686.01KB
标准全文下载:
TJSIA 0003-2020 基于强化学习的智能化决策系统标准.pdf
(686.01 KB)
文档首页截图如下:
|
|