BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

📅 2025-10-11

📈 Citations: 0

✨ Influential: 0

career value

215K/year

🤖 AI Summary

This paper addresses the critical lack of developmental plausibility and cognitive interpretability in multilingual pretraining. We introduce the first developmentally interpretable, multilingual benchmark grounded in empirical child language acquisition (CLA) trajectories. Methodologically, we integrate principles from developmental psychology with multilingual data compilation techniques to construct a staged linguistic input dataset covering 45 languages—each scaled to the informational equivalence of 100 million English word tokens—and modeling natural language exposure from infancy to native proficiency. We accompany this resource with a standardized evaluation suite and baseline models. Our contributions are threefold: (1) the first cross-lingual, developmentally grounded pretraining data construction paradigm; (2) a reproducible resource for cognitive modeling and neurolinguistic validation of multilingual models; and (3) empirical evidence that our data significantly improves model performance on cross-lingual transfer and cognitive alignment tasks.

Technology Category

Application Category

📝 Abstract

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

Problem

Research questions and friction points this paper is trying to address.

Models language acquisition from birth data

Provides multilingual developmentally plausible training datasets

Facilitates cognitive modeling and multilingual pretraining

Innovation

Methods, ideas, or system contributions that make the work stand out.

Multilingual developmentally plausible pretraining data curation

45 languages with 100M English word equivalents

Evaluation suites and baseline models for cognitive modeling

🔎 Similar Papers

No similar papers found.