177 Datasets

AlphaZero-Style Training Run (177 Iterations)

Reinforcement learning training metrics tracking policy loss, value loss, game length, and MCTS agreement over 177 self-play iterations.

176 rows · 41 columns

Policy loss, value loss, game length, and MCTS agreement tracked over 177 self-play iterations of AlphaZero-style reinforcement learning.

176 rows · 41 columns

Self-play reinforcement learning run tracking policy loss, value loss, game length, and MCTS agreement across 177 training iterations.

176 rows · 41 columns