llm_benchmark: 面向复杂推理与长文本场景的 LLM 中文能力基准项目
• 聚焦高难度任务设计,覆盖符号推导、规则归纳、代码阅读、日志分析、长文本总结等多类真实问题,更适合检验模型的综合推理能力
• 题目设置强调指令遵循与复杂约束处理,包含生产日志、棋局解读、工具组合、寻路规划等场景,对模型实用性评估更有参考价值
• 基于 GitHub 开源发布,适合用于大模型评测、能力对比、提示词测试与中文推理 benchmark 构建
https://github.com/llm2014/llm_benchmark
#大模型评测 #中文基准 #推理能力 #长文本 #代码阅读 #日志分析 #GitHub #LLM #Benchmark #AI
• 聚焦高难度任务设计,覆盖符号推导、规则归纳、代码阅读、日志分析、长文本总结等多类真实问题,更适合检验模型的综合推理能力
• 题目设置强调指令遵循与复杂约束处理,包含生产日志、棋局解读、工具组合、寻路规划等场景,对模型实用性评估更有参考价值
• 基于 GitHub 开源发布,适合用于大模型评测、能力对比、提示词测试与中文推理 benchmark 构建
https://github.com/llm2014/llm_benchmark
#大模型评测 #中文基准 #推理能力 #长文本 #代码阅读 #日志分析 #GitHub #LLM #Benchmark #AI