LMArena 评测机制:全球用户当裁判
👤
用户提问
用户输入一个真实问题,系统随机分配两个模型
→
🤖🤖
匿名对战
两个模型同时回答,用户不知道哪个是谁
→
👆
真人盲测
用户根据回答质量投票选出更好的那个
→
📊
ELO 评分
采用国际象棋 ELO 积分系统,胜率越高分数越高
截至 2026 年 3 月,已累计
563 万+
次投票,覆盖
333
个模型