弱智吧也是出benchmark了
检测模型会不会回答无厘头的问题
https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
某种意义上算是幻觉检验?还真挺有用的
检测模型会不会回答无厘头的问题
https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
某种意义上算是幻觉检验?还真挺有用的
消息来源频道
@plumzme
游戏/Linux/数码/Gal/音乐/地狱笑话/沙雕图/乐子 博客:https://plumz.me 频道有自动杀广告评论bot,如被误杀请联系管理员:@Plumlis