关键词:钢铁企业;能源计划;多工况;深度强化学习
摘 要:钢铁生产具有流程长、工序繁杂、工况不确定、能源介质多等生产特性,致使面向全流程的能源介质计划配置制定难,因此提出了具有自适应学习能力的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,根据生产系统的能源平衡机理构建能源平衡模型;然后,以能源转换系统最小运行能源成本为目标函数,考虑工序上下游约束和能源供需约束等模型约束,根据能源平衡模型和目标函数搭建深度强化学习下的能源优化框架,求解过程引入方差收敛的高斯噪声和动作超限惩罚函数,增大DDPG智能体的搜索范围,并提高收敛速度,使DDPG智能体在多工况下自适应调整,更新得到最优策略;最后,针对实际案例的不同工况进行仿真实验,验证深度强化学习方法在能源计划配置方面的有效性。
内 容:原文可通过湖北省科技资源共享服务平台(https://www.hbsts.org.cn/)获取