Tracing Multilingual Factual Knowledge Acquisition in Pretraining

📝 Paper Summary

Multilingual Factual Knowledge Pretraining Dynamics Crosslingual Consistency

Multilingual factual recall in LLMs is primarily driven by fact frequency in the pretraining corpus, with limited crosslingual transfer aiding low-frequency facts in languages sharing scripts with English.

Core Problem

Most studies evaluate multilingual factual recall only on final models, leaving the developmental process of how LLMs acquire crosslingual knowledge and consistency throughout pretraining largely unexplored.

Why it matters:

LLMs frequently exhibit crosslingual inconsistencies, answering correctly in one language but failing in another
Understanding knowledge acquisition dynamics is crucial for improving multilingual capabilities in English-centric models
Current research focuses on static outcomes rather than the emergence of capabilities during training

Concrete Example: A model might correctly answer 'Where is France’s capital located?' in English but fail the equivalent query in Chinese, despite knowing the fact. The paper traces when and why this discrepancy resolves (or doesn't) during training.

Key Novelty

longitudinal tracing of multilingual factual acquisition

Analyzes checkpoints throughout pretraining (OLMo-7B) rather than just the final model to map the trajectory of knowledge emergence
Identifies two distinct pathways for knowledge acquisition: a dominant frequency-driven pathway and a secondary, limited crosslingual transfer pathway
Correlates factual recall accuracy directly with co-occurrence frequency of subject-object pairs in the pretraining corpus across 12 languages

Architecture

The study does not propose a new architecture but analyzes existing checkpoints. Conceptually, the flow is: Pretraining Data -> [Frequency Count] & [OLMo Checkpoints] -> [Multilingual Probing] -> [Correlation Analysis].

Evaluation Highlights

Strong correlation (Pearson r=0.93) between fact log frequency and factual recall probability at 400K steps across all languages
English factual recall saturates early (approx. 80% accuracy after 50K steps/209B tokens), with minimal gains afterwards
Latin-script languages continue improving with extended pretraining, while non-Latin languages (e.g., Arabic, Korean) saturate performance very early (<2K steps)

Breakthrough Assessment

7/10

Provides significant insight into *how* multilingual knowledge emerges (frequency vs. transfer) and debunks the assumption that longer training always helps non-English languages, though it analyzes existing models rather than proposing a new method.

⚙️ Technical Details

Problem Definition

Setting: Multilingual factual knowledge probing across model checkpoints

Inputs: Factual query q_i^l in language l (e.g., 'Where is France’s capital located? The answer is:')

Outputs: Predicted answer o_i^l (e.g., 'Paris')

Pipeline Flow

Pretraining Corpus Analysis (Frequency Counting)
Model Checkpoint Selection
Multilingual Probing (Inference)
Correlation Analysis

System Modules

Frequency Analyzer

Count subject-object co-occurrences for every fact in the dataset within the pretraining corpus

Model or implementation: ElasticSearch API via WIMBD

Probing Engine

Query model checkpoints with multilingual prompts to test factual recall

Model or implementation: OLMo-7B (various checkpoints)

Modeling

Base Model: OLMo-1.7 7B

Key Hyperparameters:

checkpoints_frequency_early: Every 1,000 steps (0 to 50,000)
checkpoints_frequency_late: Every 5,000 steps (50,000 to 400,000)
total_tokens: Approx. 1.7T tokens (at 400K steps)

Compute: Not reported in the paper

Comparison to Prior Work

vs. Jiang et al./Kassner et al.: Traces development over time rather than static evaluation
vs. Merullo et al.: Extends frequency analysis to multilingual settings and identifies crosslingual transfer effects
vs. Qi et al.: Correlates consistency evolution with pretraining steps and script similarity

Limitations

Evaluation is limited to a single prompt template per relation, which may not capture full recall capability
Focuses on a single model family (OLMo), so generalization to other architectures is not guaranteed
Co-occurrence frequency is an approximation and can be ambiguous for languages sharing scripts (e.g., English/French sharing 'Paris')

Reproducibility

Code: https://github.com/cisnlp/multilingual-fact-tracing

Publicly available: Code (https://github.com/cisnlp/multilingual-fact-tracing), OLMo-7B model checkpoints, Dolma corpus, KLAR dataset. Analysis relies on WIMBD for frequency counts.

📊 Experiments & Results

Evaluation Setup

Multilingual factual probing using Cloze-style queries across 12 languages

Benchmarks:

KLAR (Multilingual factual knowledge probing)

Metrics:

Accuracy (ACC)
Crosslingual Consistency (overlap ratio of correct predictions with English)
Statistical methodology: Pearson correlation coefficient (r) with p-values

Key Results

Benchmark	Metric	Baseline	This Paper	Δ
Correlation analysis shows a strong link between fact frequency in pretraining data and recall accuracy.
KLAR (All languages)	Pearson r	0	0.93	0.93
KLAR (All languages)	Pearson r	0	0.95	0.95
Language-specific performance trajectories show divergences based on script and language family.
KLAR (English)	Accuracy	0	0.80	0.80

Experiment Figures

Trajectories of Factual Accuracy and Crosslingual Consistency across pretraining steps for 8 languages.

Fact frequency distributions vs. recall probability for 8 languages at 400K steps.

Main Takeaways

Factual recall accuracy saturates early (approx 50K steps) for English, suggesting facts are memorized quickly.
Crosslingual consistency is gated by performance in the non-English language; if a model knows a fact in L, it likely knows it in English.
Languages sharing Latin script with English (French, Spanish) show sustained improvement over training, unlike non-Latin script languages (Arabic, Korean) which saturate early.
High-frequency facts are learned via direct frequency exposure (language-agnostic), while low-frequency facts in non-English languages rely on crosslingual transfer from English.

📚 Prerequisite Knowledge

Prerequisites

Understanding of Large Language Model pretraining
Knowledge of factual probing (Cloze tasks)
Basic statistics (Pearson correlation)

Key Terms

OLMo: Open Language Model—a decoder-only LLM where checkpoints and training data are open-sourced

Dolma: Data for OLMo's pretraining—a large English-centric corpus used to train the OLMo model

KLAR: A multilingual factual knowledge probing dataset containing facts grouped into relation categories

co-occurrence frequency: The number of documents in the pretraining corpus where a fact's subject and object appear together

crosslingual consistency: A metric measuring whether a model answers a factual query correctly in a target language given that it answers correctly in a reference language (usually English)

Latin script: The writing system used by English, French, Spanish, etc., distinct from scripts like Arabic or Cyrillic

crosslingual transfer: The ability of a model to apply knowledge learned in one language (usually English) to perform tasks in another language

Pearson correlation: A statistic measuring the linear correlation between two variables (here, fact frequency and recall accuracy)