OpenAI baselines:支持 python和TensorFlow,包括许多先进的算法。
RLLib:适用于TensorFlow和PyTorch,包括用于超参数调整的工具,并且支持多主体系统。
Nervana’s Coach:支持python和TensorFlow,针对Intel处理器进行了优化,包括许多相关算法。
TensorForce:支持python和TensorFlow中,包括许多相关算法。
RLLab:在python中实现了多的算法,例如信任区域策略优化(TRPO)和深度确定性策略梯度(DDPG)算法,交叉熵方法(CEM),协方差矩阵自适应-进化策略(CMA-ES)等。
Keras-RL:在python深度Q学习(DQN),Double DQN(消除了Q学习中最大运算符的偏差),DDPG,连续DQN(CDQN或NAF)和CEM中实现。
BURLAP:布朗大学的RL和Planning Java库,它实现了MDP,随机游戏和POMDP,以及经典且更高级的计划算法(从A *到上置信度树),一些标准RL算法(从Q学习到Actor-Critic)以及一些线性值函数逼近算法(最小二乘策略迭代,拟合值迭代)和一些有趣的特征基础函数(平铺编码,RBF和傅立叶)等等。
PyBrain:用于ML的通用python库,它实现了经典的RL算法(Q学习和SARSA)以及更高级的算法(例如,神经拟合Q迭代)。它还包括许多黑盒策略优化方法(例如CMA-ES,遗传算法等)。
Richard S. Sutton和Andrew G. Barto编写的Matlab代码。
ApproxRL:由Busoniu,Babuska,De Schutter和Ernst编写的Matlab代码。
RLPy:Python中的线性值函数逼近。