Scholar

Pedro Ortiz Suarez

Google Scholar ID: 5sNdyvkAAAAJ

Principal Research Scientist, Common Crawl Foundation

Language modelingCorpus linguisticsNamed Entity RecognitionComputational LinguisticsMachine

Citations & Impact

All-time

Citations

5,781

H-index

i10-index

Publications

Co-authors

list available

Contact

Publications

10 items

2026

Cited

2026

Cited

2026

Cited

2025

Cited

2025

Cited

2025

Cited

2025

Cited

arXiv.org · 2024

Cited

Resume (English only)

Academic Achievements

Published 'A Data-driven Approach to Natural Language Processing for Contemporary and Historical French', showing pre-training dataset size is often overestimated
Contributed to BERTrade: using contextual embeddings to parse Old French with newly curated corpora
Co-developed the FreEM corpus and D’AlemBERT language model for Early Modern French
Improved the OSCAR multilingual web corpus by proposing a document-oriented version
Co-authored 'Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets', revealing systematic issues in low-resource corpora

Co-authors

36 total