Paper of The Day

me (neuralnets) explaining one paper per day :)

Reinforcement Learning for Reasoning in Large Language Models with One Training ExamplePOTD1

Softpick: No Attention Sink, No Massive Activations with Rectified SoftmaxPOTD2

The Leaderboard IllusionPOTD3