1.一种土压平衡盾构的优化方法,其特征在于,包括:获取盾构设备当前时刻的密封舱土压;结合所述密封舱土压与预设的启发式动态规划HDP控制器确定控制向量,并进行优化训练,所述控制向量中的参数包括总推力、螺旋输送机转速、推进速度、刀盘扭矩;根据优化训练后的控制向量对所述盾构设备的下一时刻的密封舱土压进行控制;所述结合所述密封舱土压与预设的启发式动态规划HDP控制器确定控制向量,并进行优化训练包括:获取已经完成模型训练的模型网络及执行网络,所述执行网络以最小化密封舱土压优化控制代价函数为目标,以优化控制向量;将所述当前时刻的密封舱土压作为所述执行网络的输入,执行所述执行网络的运算确定出控制向量;将所述当前密封舱土压、所述控制向量作为模型网络的输入,运行所述模型网络的预测运算得到与所述当前密封舱土压对应的下一时刻的密封舱土压,并将所述下一时刻的密封舱土压进行评价后的评价结果反馈至所述执行网络,所述执行网络根据所述评价结果对所述控制向量进行优化训练,其中,密封舱土压的效用函数U(k),
![]()
p(k)为密封舱土压。2.根据权利要求1所述的方法,其特征在于,所述将所述当前密封舱土压、所述控制向量作为模型网络的输入,运行所述模型网络的预测运算得到与所述当前密封舱土压对应的下一时刻的密封舱土压,并将所述下一时刻的密封舱土压进行评价后的评价结果反馈至所述执行网络,所述执行网络根据所述评价结果对所述控制向量进行优化训练包括:将所述当前密封舱土压、所述控制向量作为基于隐藏层节点数为9的三层BP神经网络的模型网络的输入,运行预测运算得到与所述当前密封舱土压对应的下一时刻的密封舱土压;将所述下一时刻的密封舱土压作为基于隐藏层节点数为8的三层BP神经网络的评价网络的输入,运行评价运算得到下一时刻密封舱土压优化控制代价函数,并根据所述评价网络的代价函数误差更新网络权值,逼近所述下一时刻密封舱土压优化控制代价函数;所述执行网络根据所述评价网络反馈的评价网络误差进行权值更新,对所述控制向量进行优化。3.根据权利要求2所述的方法,其特征在于,所述执行网络根据所述评价网络反馈的误差进行权值更新,对所述控制向量进行优化之后,还包括:判断对所述控制向量进行优化的迭代误差是否处于预设正常误差范围内;若所述迭代误差没有处于预设正常误差范围内,则循环更新所述网络权值;所述根据优化训练后的控制向量对所述盾构设备的下一时刻的密封舱土压进行控制包括:若所述迭代误差处于预设正常误差范围内,则根据优化训练后的控制向量对所述盾构设备的下一时刻的密封舱土压进行控制。4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:建立具有输入层、隐藏层、输出层的三层BP神经网络的密封舱土压预测模型;其中,所述输入层中包括当前密封舱土压p(k)、当前螺旋输送机转速n(k)、当前推进速度v(k)、当前总推力F(k)、当前刀盘扭矩T(k),所述隐藏层用于反应具有多节点结构的权值更新规则,以便为模型网络、评价网络配置对应的节点,所述输出层为下一时刻密封舱土压p(k+1),确定为p(k+1)=f[p(k),n(k),v(k),F(k),T(k)],k为当前时刻。5.一种土压平衡盾构的优化装置,其特征在于,包括:获取单元,用于获取盾构设备当前时刻的密封舱土压;优化单元,用于结合所述密封舱土压与预设的启发式动态规划HDP控制器确定控制向量,并进行优化训练,所述控制向量中的参数包括总推力、螺旋输送机转速、推进速度、刀盘扭矩;控制单元,用于根据优化训练后的控制向量对所述盾构设备的下一时刻的密封舱土压进行控制;所述优化单元包括:获取模块,用于获取已经完成模型训练的模型网络及执行网络,所述执行网络以最小化密封舱土压优化控制代价函数为目标,以优化控制向量;确定模块,用于将所述当前时刻的密封舱土压作为所述执行网络的输入,执行所述执行网络的运算确定出控制向量;训练模块,用于将所述当前密封舱土压、所述控制向量作为模型网络的输入,运行所述模型网络的预测运算得到与所述当前密封舱土压对应的下一时刻的密封舱土压,并将所述下一时刻的密封舱土压进行评价后的评价结果反馈至所述执行网络,所述执行网络根据所述评价结果对所述控制向量进行优化训练,其中,密封舱土压的效用函数U(k),
![]()
p(k)为密封舱土压。6.根据权利要求5所述的装置,其特征在于,所述训练模块,具体用于将所述当前密封舱土压、所述控制向量作为基于隐藏层节点数为9的三层BP神经网络的模型网络的输入,运行预测运算得到与所述当前密封舱土压对应的下一时刻的密封舱土压;所述训练模块,还具体用于将所述下一时刻的密封舱土压作为基于隐藏层节点数为8的三层BP神经网络的评价网络的输入,运行评价运算得到下一时刻密封舱土压优化控制代价函数,并根据所述评价网络的代价函数误差更新网络权值,逼近所述下一时刻密封舱土压优化控制代价函数;所述训练模块,还具体用于所述执行网络根据所述评价网络反馈的评价网络误差进行权值更新,对所述控制向量进行优化。7.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-4中任一项所述的土压平衡盾构的优化方法对应的操作。8.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4中任一项所述的土压平衡盾构的优化方法对应的操作。