Skip to content

richhh520/Awesome_Bias_and_Fairness_Datasets_and_Benchmarks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 

Repository files navigation

Awesome Bias and Fairness Datasets and Benchmarks in Language Models


🔍 Contents


💡 Acknowledgement

Thanks to the contributions of Zhiting Fan and Ruiling Xu at Zhejiang University. This repository is sponsored by the ZJU-AI4H Lab at Zhejiang University.

Thanks to ``Bias and Fairness in Large Language Models: A Survey''.

Datasets and Benchmarks

Dataset Number of Data Year Description Category/Task Targeted Social Group Input Category of Metrics Paper Dataset Link
Winogender 720 2018 揭示模型根据代词性别将代词识别为与特定职业相关的情况 Masked Tokens gender Counterfactual input Probability-Based Gender Bias in Coreference Resolution Link
Winobias 3160 2018 Masked Tokens gender Counterfactual input Probability-Based Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods link
GAP 8908 2018 一个性别平衡的标记语料库,包含 8,908 个模糊代词-名称对 Masked Tokens gender Counterfactual input Probability-Based Mind the GAP: A Balanced Corpus of Gendered Ambiguou link
BUG 109419 2021 在来自三个领域的语料库获取包含刻板和非刻板性别角色分配(例如女护士与男舞者)的语法模式,从而产生了第一个包含 108K 不同现实世界英语的大规模性别偏见数据集句子。 Masked Tokens gender Counterfactual input Probability-Based Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation link
StereoSet 16995 2021 对于每个social group编写刻板印象、反刻板印象和不相关的属性词。提供包含目标术语的上下文填空句,其中的空白可以用刻板印象术语或反刻板印象术语来填充,但不能用不相关的术语来填充。 Masked Tokens gender, race, religion, others Counterfactual input Probability-Based StereoSet: Measuring stereotypical bias in pretrained language models link
BEC-Pro 5400 2020 Masked Tokens gender Counterfactual input Probability-Based Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender Bias link
WinoQueer 包含 45540 个句子对,涵盖 11 个模板句子、9 个酷儿身份组、3 组代词、60 个常用名称和 182 个独特谓词。 2023 根据 CrowS-Pairs配对句子偏差检测构建。
模版样例: I don’t like because they are .
Unmasked Sentences Sexual-Orientation Counterfactual input Probability-Based WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models link
CrowS-Pairs 1508 2020 一组数据包含两个句子:对优势群体的刻板印象和对弱势群体的反刻板印象,它们之间唯一变化的单词是那些标识所谈论的群体的单词。用于测量模型相对于反刻板印象的句子倾向于刻板印象句子的程度 Unmasked Sentences Age
Disability
Gender
Nationality
Physical Appearance
Race
Religion
Sexual-Orientation
Other
Counterfactual input Probability-Based——Pseudo-Log-Likelihood Probability-Based——Pseudo-Log-Likelihood link
RedditBias 11873 2021 人类标注者对检索到的评论和对应的目标术语上下文进行标注,判断是否表达了负面的刻板印象偏见或是否存在包含偏见的短语。 <img src="./imag/RedditBias.png "height="400%" width="400%"> Unmasked Sentences Gender
Race
Religion
Sexual-Orientation
Counterfactual input Classifier RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models link
RealToxicityPrompts 100,100 2020 一个由 10 万个自然发生的句子级prompt组成的数据集,这些prompt源自大量英语网络文本语料库 Sentence Completions Other Prompt Classifier
与来自广泛使用的毒性分类器的毒性分数配对
RealToxicityPrompts: Evaluating neural toxic degeneration in language models. link
BOLD 23,679 2021 从维基百科收集英文prompt,抓取相关句子。例如,对于每个职业,选取句子的前 8 个单词中提到该职业的句子,从而截断句子以获得prompt Sentence Completions Gender
Religion
Race
Other
Prompt Lexicon
利用情绪、毒性、尊重和情感词典作为衡量标准,计算相关评分衡量模型生成质量。
TrustGPT 9* 2023 提供评估社会群体之间表现差异的prompt Sentence Completions Gender
Religion
Race
Prompt Classifier
采用三个指标来评估 LLM 的偏差:各个组的平均毒性;不同组类型的标准差;从对不同组的毒性分布进行的 Mann-Whitney U 检验获得的 p 值。
TRUSTGPT: A Benchmark for Trustworthy and Responsible Large Language Models link
HONEST 420 2021 提供 420 个句子句子完成中的负面性别刻板印象。每个句子都遵循基于完形填空的形式,提示中带有性别身份术语,可以通过提示自由文本延续来完成;也可以通过替换单个 [MASK] 令牌来完成完成,这可以与基于masked-token的指标兼容 Sentence Completions Gender Prompt Lexicon / masked-token的指标 HONEST: Measuring hurtful sentence completion in language models. link
BiasAsker 一个包含11个属性下的841个社会群体的综合社会偏见数据集;以及 12 个类别的 8,110 个社会偏见属性 2023 BiasAsker 自动生成问题,并采用基于存在测量的新颖方法来识别会话系统中的两种类型的偏差(即绝对偏差和相关偏差)。 Question-Answering Ability
Age
Body
Character
Culture
Gender
Profession
Race
Race
Religion
Social
Victim
Prompt Classifier BiasAsker: Measuring the Bias in Conversational AI System link
BBQ 58492 2022 衡量一个模型何时依赖于刻板印象。问题要求一个社会群体要么符合消极的刻板印象,要么符合积极的刻板印象,其背景是模棱两可的 Question-Answering Age
Disability
Gender
Nationality
Physical
Appearance
Race
Religion
Sexual-Orientation
Other
Prompt Classifier
准确率评分 将准确率分为两部分,即正确答案是否强化或违背了现有的社会偏见,以评估模型的表现是否受到社会偏见在回答问题时的影响。
偏见分数 引入了一个偏见分数来量化模型以一种有偏见的方式回答问题的程度。偏见分数反映了与社会偏见一致的非UNKNOWN输出的百分比
BBQ: A hand-built bias benchmark for question answering link
UnQover 30* 2020 使用不加明确描述的问题来揭示下游问答模型中的刻板印象偏见。不加明确描述所以没有支持任一选择的事实背景,从而检测模型是否存在刻板印象,所有答案都表明存在刻板印象偏差 Question-Answering Gender
Nationality
Race
Religion
Prompt Classifier UNQOVERing Stereotyping Biases via Underspecified Questions link
Grep-BiasIR 118 2023 使用与性别相关的118个Query与708个document,其中一半的document与Query有关,另一半无关。从而更加深入的探索了检索系统的性别表示。 Question-Answering Gender Prompt NA Grep-BiasIR: A Dataset for Investigating Gender Representation Bias in Information Retrieval Results link
MGBR 2024 在给定由女性、男性和刻板职业单词组成的单词列表的情况下预测女性或男性单词的数量
(利用“How many of the following words are definitely female/male?”进行提问)
Question-Answering Gender Prompt Distribution Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting.
Pythia 2023 一个更全面的评估套件 NA NA NA Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

Metrics

Counterfactual input

A. Masked Tokens

Description Masked Tokens数据集包含了语言模型必须填充的带有blank的句子。填空选项是预先指定的,如“他/她/他们”的代词,或者是刻板印象和反刻板印象选项。

Metrics 这些数据集最适合使用masked token probability-based metrics,或者使用pseudo-log-likelihood metrics来评估给定句子条件下的Masked Tokens的概率。在多个选择选项的情况下,也可以使用标准的指标,如Accuracy。

B. Unmasked Sentences

Description 基于Unmasked Sentences数据集的模型计算一组句子中哪个句子生成或被选中的概率最大。<br >

Metrics 该框架下的数据集于masked-token based数据集适用的度量指标相似,特别是pseudo-log-likelihood metrics,以衡量给定不同人口统计学术语的句子的概率。此外,这些数据集使用更多更灵活的度量方式,例如,句子对可以提示两个文本生成,这可以与生成的基于文本的度量进行比较。

Prompt

A. Sentence Completions

Description Sentence Completions 框架下将数据集改编为输入句子来条件文本的延续,指定句子中的前几个单词要求模型提供一个延续。这些数据集不是像反事实输入数据集那样使用人为设定的偏差触发器,而是匹配人类书写文本的分布,以模拟更多的自然语言使用和潜在的非目标偏见。

B. Question-Answering DescriptionQuestion-Answering框架下数据集被提出来作为prompt,提出一个问题并要求模型提供一个答案。

Metrics 基于prompt框架数据集的模型多数采用Generated Text-Based Metrics,对于无法直接利用来自LLM的概率或嵌入的黑箱模型,它可以直接对LLM生成的文本进行评价。常见的方法是利用一组已知具有偏见或毒性的提示使模型生成有偏或有毒性的文本,基于上述结果测量模型的有偏程度。

  1. Distribution Metrics 通过比较与一个社会群体相关联的标记与与另一个群体相关联的标记的分布,可以在生成的文本中检测到偏见。
  2. Classifier Metrics 依赖于一个辅助模型来对生成的文本输出进行评分,以评估其毒性、情感或任何其他维度的偏差。如果从相似的提示中产生的文本,但具有不同的社会群体,则可以检测到偏见。
  3. Lexicon Metrics 对生成的输出进行单词级别的分析,将每个单词与预先编译的有害单词列表进行比较,或者为每个单词分配预先计算的偏差分数。

About

Awesome Bias and Fairness Datasets and Benchmarks in Language Models

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published