折腾啥 头像

消息来源频道

折腾啥

@zhetengsha

频道40,410 位成员公开可见0 人在线

Power Users/Automators 折腾/讨论/分享各种开源工具/脚本/自动化工作流 👥 群组 @zhetengsha_group 📌 资源合集导航 https://t.me/zhetengsha/2 🎁 恰饭推荐 https://t.me/zhetengsha/957 📢 广告投放 @xream Buy ads: https://telega.io/c/zhetengsha feedId:55438372655431680+userId:62307599601855488

成员规模40,410 位成员
在线情况0 人在线
消息总数4,340 条消息
浏览量总数7,753,402 次浏览

在这个频道里搜索消息……

t.me/zhetengsha

llm_benchmark: 面向复杂推理与长文本场景的 LLM 中文能力基准项目
• 聚焦高难度任务设计,覆盖符号推导、规则归纳、代码阅读、日志分析、长文本总结等多类真实问题,更适合检验模型的综合推理能力
• 题目设置强调指令遵循与复杂约束处理,包含生产日志、棋局解读、工具组合、寻路规划等场景,对模型实用性评估更有参考价值
• 基于 GitHub 开源发布,适合用于大模型评测、能力对比、提示词测试与中文推理 benchmark 构建
https://github.com/llm2014/llm_benchmark
#大模型评测 #中文基准 #推理能力 #长文本 #代码阅读 #日志分析 #GitHub #LLM #Benchmark #AI