LMArena 评测机制:全球用户当裁判

👤
用户提问
用户输入一个真实问题,系统随机分配两个模型
🤖🤖
匿名对战
两个模型同时回答,用户不知道哪个是谁
👆
真人盲测
用户根据回答质量投票选出更好的那个
📊
ELO 评分
采用国际象棋 ELO 积分系统,胜率越高分数越高
截至 2026 年 3 月,已累计 563 万+ 次投票,覆盖 333 个模型