大型语言模型中中国审查偏向的分析 An Analysis of Chinese Censorship Bias in LLM Citizen Lab https://citizenlab.ca/research/ananalysisofch | 🌈 SOGIE 讲座+知识库频道 - LGBT 女权同志性别多元社运

2026/04/27 11:04

大型语言模型中中国审查偏向的分析 An Analysis of Chinese Censorship Bias in LLM
Citizen Lab
https://citizenlab.ca/research/an-analysis-of-chinese-censorship-bias-in-llm/
在本文中，Citizen Lab 的 Mohamed Amed 和 Jeffrey Knockel 利用一款作为研究一部分而自行设计的审查检测工具，对大型语言模型（LLMs）中的中文审查偏见进行了审视。他们发出警告称，当大型语言模型基于受国家审查的文本进行训练时，其输出结果将更有可能与国家立场保持一致。
摘要：当大型语言模型（LLM）基于包含社会偏见的文本进行训练时，这些偏见会隐性地影响模型的输出结果。若基于“净化”后的内容——即那些经过国家审查（包括修改、删除及自我审查）过滤后所剩余的内容——来训练LLM，便会导致我们所称的“审查偏见”。受审查偏见影响的模型，往往较难反映那些常遭禁绝的观点，却更倾向于反映那些未受限制的观点。当用户使用某种语言与模型进行交互，且该语言主要通行于审查法规严格的地区时，这一问题尤为突出。在本文中，我们首先阐述了审查偏见的定义，继而提出了一种用于识别与量化该偏见的创新方法，并运用此方法对当前市面上最流行的大型语言模型进行了评估。作为本文的一项重要贡献，我们设计并评估了“CensorshipDetector”——一款中文文本分类模型，并将其作为我们实验设计中的关键组件加以运用。评估结果显示，CensorshipDetector 在区分“净化内容”与“非净化内容”方面的准确率高达91%。我们的测试结果表明，在我们所评估的所有模型中，均存在审查偏见的迹象。最后，我们概述了审查偏见可能造成的危害——具体而言，即原本主要针对国内受众的信息操纵行为，如今却被“输出”并波及至海外流散群体；同时，我们还针对各类利益相关方提出了建议，旨在帮助他们减轻审查偏见的危害，并防范其在未来再次发生。

🌈 SOGIE 讲座+知识库频道 - LGBT 女权 同志 性别 多元 社运

🌈 SOGIE 讲座+知识库频道 - LGBT 女权同志性别多元社运