消息来源频道

折腾啥

@zhetengsha

频道40,410 位成员公开可见0 人在线

Power Users/Automators 折腾/讨论/分享各种开源工具/脚本/自动化工作流 👥 群组 @zhetengsha_group 📌 资源合集导航 https://t.me/zhetengsha/2 🎁 恰饭推荐 https://t.me/zhetengsha/957 📢 广告投放 @xream Buy ads: https://telega.io/c/zhetengsha feedId:55438372655431680+userId:62307599601855488

成员规模40,410 位成员

在线情况0 人在线

消息总数4,340 条消息

浏览量总数7,753,402 次浏览

频道详情频道地址

2026/03/20 02:01

llm_benchmark: 面向复杂推理与长文本场景的 LLM 中文能力基准项目
• 聚焦高难度任务设计，覆盖符号推导、规则归纳、代码阅读、日志分析、长文本总结等多类真实问题，更适合检验模型的综合推理能力
• 题目设置强调指令遵循与复杂约束处理，包含生产日志、棋局解读、工具组合、寻路规划等场景，对模型实用性评估更有参考价值
• 基于 GitHub 开源发布，适合用于大模型评测、能力对比、提示词测试与中文推理 benchmark 构建
https://github.com/llm2014/llm_benchmark
#大模型评测 #中文基准 #推理能力 #长文本 #代码阅读 #日志分析 #GitHub #LLM #Benchmark #AI