AdvSumm: Adversarial Training for Bias Mitigation in Text Summarization

📅 2025-06-06

📈 Citations: 0

✨ Influential: 0

career value

166K/year

🤖 AI Summary

Large language models (LLMs) often inherit spurious correlations and framing biases from training data, leading to unfair text summarization outputs. To address this, we propose a domain-agnostic adversarial training framework that enables universal debiasing of abstractive summarization without requiring bias labels or domain-specific knowledge. Our method, built upon a Seq2Seq architecture, introduces a novel Embedding-layer Gradient-guided Perturber (EGP) module that injects targeted perturbations into token embeddings via gradient-based guidance; integrates an adversarial loss to suppress bias-confounded representations; and employs a multi-dimensional bias evaluation protocol for robust assessment. Experiments across multiple benchmarks demonstrate significant mitigation of name–nationality and political stance biases, while preserving ROUGE scores—outperforming standard Transformer baselines and back-translation–enhanced methods.

Technology Category

Application Category

📝 Abstract

Large Language Models (LLMs) have achieved impressive performance in text summarization and are increasingly deployed in real-world applications. However, these systems often inherit associative and framing biases from pre-training data, leading to inappropriate or unfair outputs in downstream tasks. In this work, we present AdvSumm (Adversarial Summarization), a domain-agnostic training framework designed to mitigate bias in text summarization through improved generalization. Inspired by adversarial robustness, AdvSumm introduces a novel Perturber component that applies gradient-guided perturbations at the embedding level of Sequence-to-Sequence models, enhancing the model's robustness to input variations. We empirically demonstrate that AdvSumm effectively reduces different types of bias in summarization-specifically, name-nationality bias and political framing bias-without compromising summarization quality. Compared to standard transformers and data augmentation techniques like back-translation, AdvSumm achieves stronger bias mitigation performance across benchmark datasets.

Problem

Research questions and friction points this paper is trying to address.

Mitigates bias in text summarization models

Reduces name-nationality and political framing biases

Enhances robustness without compromising summarization quality

Innovation

Methods, ideas, or system contributions that make the work stand out.

Adversarial training framework for bias mitigation

Gradient-guided perturbations at embedding level

Reduces bias without compromising summarization quality

🔎 Similar Papers

No similar papers found.