LLM相关评测基准与榜单汇总|Leaderboard

AI最新动态3个月前更新 Rocky
124 0 1

1. LiveBench

2. Artificial Analysis

3. aider polyglot

  • 链接https://aider.chat/docs/leaderboards/
  • 保持更新:✅
  • 主办:Aider
  • 备注:专注于多语言代码编辑能力的基准,基于 Exercism 平台的 225 道难题构建,覆盖 C++、Go、Java、JavaScript、Python、Rust 六种编程语言,是旧版 Python 代码榜单的替代版本。官方详情可参考(https://aider.chat/docs/leaderboards/)。

4. Chatbot Arena(LMSYS)

5. 司南(OpenCompass)

6. SuperCLUE

  • 链接https://superclueai.com/
  • 保持更新:✅
  • 主办:CLUE 团队
  • 备注:专注于中文通用能力的综合榜单与评测体系,长期维护更新,是中文大模型评测的重要参考之一。详细评测内容可访问官网(https://superclueai.com/)。

7. AlpacaEval 2.0

8. SWE‑bench(总榜)

  • 链接https://www.swebench.com/
  • 保持更新:✅
  • 主办:Princeton / SWE‑bench 团队
  • 备注:聚焦真实开源项目 issue 修复能力的评测,包含 Verified(验证版)、Lite(精简版)、Multimodal(多模态版)等子榜单,并提供云端提交流程供模型测试。详细排名可参考官网(https://www.swebench.com/)。

9. OpenRouter Rankings

  • 链接https://openrouter.ai/rankings
  • 保持更新:✅
  • 主办:OpenRouter
  • 备注:非纯能力榜单,核心统计 LLM 的使用量/市占率与品类热度,可帮助洞察当前市场中模型的“流行度”趋势。具体数据可查看 OpenRouter 排名页面(https://openrouter.ai/rankings)。

10. HAL(Holistic Agent Leaderboard)

  • 链接https://hal.cs.princeton.edu/
  • 保持更新:✅
  • 主办:Princeton SAgE
  • 备注:专注于 Agent(智能体)能力的总榜,采用多基准评测、成本感知机制及第三方独立评测,可直观查看模型在跨任务、跨数据集场景下的代理能力。官网(https://hal.cs.princeton.edu/)提供完整榜单数据。

11. LLMDB(聚合)

  • 链接https://llmdb.com/benchmarks
  • 保持更新:✅
  • 主办:LLMDB
  • 备注:多基准数据汇总与可视化平台,包含 AIME、LiveCodeBench、BFCL、WMT24、FACTS 等多个专题评测页面,可一站式查看不同基准下的模型表现。详情可访问(https://llmdb.com/benchmarks)。

12. Vals AI Benchmarks

13. Search Arena

14. Opper TaskBench

  • 链接https://opper.ai/models
  • 保持更新:✅
  • 主办:Opper Technology AB
  • 备注:以任务完成率为核心的实战型基准,评分范围 0.0–1.0,覆盖 Context(上下文理解)、SQL(数据库操作)、Agents(智能体协作)、Normalization(数据标准化)四类任务,同时收录 GPT-5-mini、GPT-5-nano 等小模型的评测数据。详情可参考(https://opper.ai/models)。

15. Roo Code

  • 链接https://roocode.com/evals
  • 保持更新:✅
  • 主办:Roo Code
  • 备注:代码能力评测基准,其使用的练习题与 aider polyglot 几乎一致,可作为代码类基准评测结果的交叉验证参考。具体评测内容可访问(https://roocode.com/evals)。
© 版权声明

相关文章