212 datasets

1 datasets tagged "212"

AlphaZero-Style MCTS Training Metrics (212 Iterations)

Policy and value loss, game outcomes, and MCTS search metrics across 212 training iterations of a reinforcement learning agent.