Designing DSIC Mechanisms for Data Sharing in the Era of Large Language Models

📅 2025-06-01

📈 Citations: 0

✨ Influential: 0

career value

221K/year

🤖 AI Summary

Large language model (LLM) training suffers from insufficient high-quality data due to legal constraints, privacy concerns, and heterogeneous costs faced by data providers; existing mechanisms either rely on unverifiable trust or ignore supply-side heterogeneity. Method: We propose the first data-sharing mechanism framework satisfying dominant-strategy incentive compatibility (DSIC), individual rationality, and weak budget balance. It integrates a quality-weighted marginal incentive auction (Q-MIA) with marginal utility tokens (MUT) into a hybrid mechanism, Mixed-MIA, augmented with differential privacy and verifiable execution. Contribution/Results: We prove Mixed-MIA’s DSIC property and budget feasibility. Experiments demonstrate substantial gains in high-quality data acquisition efficiency over volume-prioritizing and trust-based baselines, while ensuring robustness against misreporting and collusion, supporting privacy preservation and sustainable, trustworthy collaboration.

Technology Category

Application Category

📝 Abstract

Training large language models (LLMs) requires vast amounts of high-quality data from institutions that face legal, privacy, and strategic constraints. Existing data procurement methods often rely on unverifiable trust or ignore heterogeneous provider costs. We introduce a mechanism-design framework for truthful, trust-minimized data sharing that ensures dominant-strategy incentive compatibility (DSIC), individual rationality, and weak budget balance, while rewarding data based on both quality and learning utility. We formalize a model where providers privately know their data cost and quality, and value arises solely from the data's contribution to model performance. Based on this, we propose the Quality-Weighted Marginal-Incentive Auction (Q-MIA), which ranks providers using a virtual cost metric and uses Myerson-style payments to ensure DSIC and budget feasibility. To support settings with limited liquidity or long-term incentives, we introduce the Marginal Utility Token (MUT), which allocates future rights based on marginal contributions. We unify these in Mixed-MIA, a hybrid mechanism balancing upfront payments and deferred rewards. All mechanisms support verifiable, privacy-preserving implementation. Theoretically and empirically, they outperform volume-based and trust-based baselines, eliciting higher-quality data under budget constraints while remaining robust to misreporting and collusion. This establishes a principled foundation for sustainable and fair data markets for future LLMs.

Problem

Research questions and friction points this paper is trying to address.

Ensuring truthful data sharing with legal and privacy constraints

Addressing heterogeneous provider costs and data quality issues

Designing incentive-compatible mechanisms for sustainable data markets

Innovation

Methods, ideas, or system contributions that make the work stand out.

DSIC mechanism for truthful data sharing

Quality-Weighted Marginal-Incentive Auction (Q-MIA)

Marginal Utility Token for deferred rewards

🔎 Similar Papers

No similar papers found.