二人零和マルコフゲームにおけるオフ方策評価

Hace 2 años 460 Visualizaciones

Deep Counterfactual Regret Minimization

Hace 4 años 2594 Visualizaciones

Deep Q-learning from Demonstrations

Hace 4 años 417 Visualizaciones

Multi-agent Reinforcement Learning in Sequential Social Dilemmas

Hace 5 años 534 Visualizaciones

Evolved policy gradients

Hace 5 años 308 Visualizaciones