大型语言模型中中国审查偏向的分析 An Analysis of Chinese Censorship Bias in LLM
Citizen Lab
https://citizenlab.ca/research/an-analysis-of-chinese-censorship-bias-in-llm/
在本文中,Citizen Lab 的 Mohamed Amed 和 Jeffrey Knockel 利用一款作为研究一部分而自行设计的审查检测工具,对大型语言模型(LLMs)中的中文审查偏见进行了审视。他们发出警告称,当大型语言模型基于受国家审查的文本进行训练时,其输出结果将更有可能与国家立场保持一致。
摘要:当大型语言模型(LLM)基于包含社会偏见的文本进行训练时,这些偏见会隐性地影响模型的输出结果。若基于“净化”后的内容——即那些经过国家审查(包括修改、删除及自我审查)过滤后所剩余的内容——来训练LLM,便会导致我们所称的“审查偏见”。受审查偏见影响的模型,往往较难反映那些常遭禁绝的观点,却更倾向于反映那些未受限制的观点。当用户使用某种语言与模型进行交互,且该语言主要通行于审查法规严格的地区时,这一问题尤为突出。在本文中,我们首先阐述了审查偏见的定义,继而提出了一种用于识别与量化该偏见的创新方法,并运用此方法对当前市面上最流行的大型语言模型进行了评估。作为本文的一项重要贡献,我们设计并评估了“CensorshipDetector”——一款中文文本分类模型,并将其作为我们实验设计中的关键组件加以运用。评估结果显示,CensorshipDetector 在区分“净化内容”与“非净化内容”方面的准确率高达91%。我们的测试结果表明,在我们所评估的所有模型中,均存在审查偏见的迹象。最后,我们概述了审查偏见可能造成的危害——具体而言,即原本主要针对国内受众的信息操纵行为,如今却被“输出”并波及至海外流散群体;同时,我们还针对各类利益相关方提出了建议,旨在帮助他们减轻审查偏见的危害,并防范其在未来再次发生。
Citizen Lab
https://citizenlab.ca/research/an-analysis-of-chinese-censorship-bias-in-llm/
在本文中,Citizen Lab 的 Mohamed Amed 和 Jeffrey Knockel 利用一款作为研究一部分而自行设计的审查检测工具,对大型语言模型(LLMs)中的中文审查偏见进行了审视。他们发出警告称,当大型语言模型基于受国家审查的文本进行训练时,其输出结果将更有可能与国家立场保持一致。
摘要:当大型语言模型(LLM)基于包含社会偏见的文本进行训练时,这些偏见会隐性地影响模型的输出结果。若基于“净化”后的内容——即那些经过国家审查(包括修改、删除及自我审查)过滤后所剩余的内容——来训练LLM,便会导致我们所称的“审查偏见”。受审查偏见影响的模型,往往较难反映那些常遭禁绝的观点,却更倾向于反映那些未受限制的观点。当用户使用某种语言与模型进行交互,且该语言主要通行于审查法规严格的地区时,这一问题尤为突出。在本文中,我们首先阐述了审查偏见的定义,继而提出了一种用于识别与量化该偏见的创新方法,并运用此方法对当前市面上最流行的大型语言模型进行了评估。作为本文的一项重要贡献,我们设计并评估了“CensorshipDetector”——一款中文文本分类模型,并将其作为我们实验设计中的关键组件加以运用。评估结果显示,CensorshipDetector 在区分“净化内容”与“非净化内容”方面的准确率高达91%。我们的测试结果表明,在我们所评估的所有模型中,均存在审查偏见的迹象。最后,我们概述了审查偏见可能造成的危害——具体而言,即原本主要针对国内受众的信息操纵行为,如今却被“输出”并波及至海外流散群体;同时,我们还针对各类利益相关方提出了建议,旨在帮助他们减轻审查偏见的危害,并防范其在未来再次发生。