Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning

📅 2025-10-09

📈 Citations: 0

✨ Influential: 0

career value

193K/year

🤖 AI Summary

Large language models (LLMs) in federated learning (FL) pose cross-client training data memorization risks; existing detection methods focus solely on single-sample memorization, neglecting fine-grained inter-sample memorization, and centralized evaluation techniques do not directly transfer to FL. Method: We extend fine-grained cross-sample memorization assessment to FL for the first time, proposing a unified analytical framework that quantifies both intra-client and cross-client memorization. We systematically investigate the impact of decoding strategies, prefix length, training rounds, and FL algorithms on memorization behavior. Results: Experiments confirm that FL-trained LLMs indeed memorize client-specific data, with intra-client memorization significantly stronger than cross-client memorization. Key training and inference factors exert quantifiable, non-negligible effects on memorization intensity. This work establishes a novel, empirically grounded methodology for privacy risk assessment in FL, enabling principled evaluation of model memorization across heterogeneous clients.

Technology Category

Application Category

📝 Abstract

Federated learning (FL) enables collaborative training without raw data sharing, but still risks training data memorization. Existing FL memorization detection techniques focus on one sample at a time, underestimating more subtle risks of cross-sample memorization. In contrast, recent work on centralized learning (CL) has introduced fine-grained methods to assess memorization across all samples in training data, but these assume centralized access to data and cannot be applied directly to FL. We bridge this gap by proposing a framework that quantifies both intra- and inter-client memorization in FL using fine-grained cross-sample memorization measurement across all clients. Based on this framework, we conduct two studies: (1) measuring subtle memorization across clients and (2) examining key factors that influence memorization, including decoding strategies, prefix length, and FL algorithms. Our findings reveal that FL models do memorize client data, particularly intra-client data, more than inter-client data, with memorization influenced by training and inferencing factors.

Problem

Research questions and friction points this paper is trying to address.

Quantifying cross-client data memorization risks in federated learning systems

Measuring fine-grained intra- and inter-client training data memorization

Identifying key factors influencing memorization in federated language models

Innovation

Methods, ideas, or system contributions that make the work stand out.

Framework measures cross-client memorization in federated learning

Quantifies intra- and inter-client memorization across all clients

Analyzes factors like decoding strategies and FL algorithms

🔎 Similar Papers

Federated Large Language Models: Current Progress and Future Directions

2024-09-24arXiv.orgCitations: 16

FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering

2023-10-24arXiv.orgCitations: 7

💼 Related Jobs

No related jobs found.

Authors to Follow