Premium LLM Training Data

40.2M High-Quality
Multilingual Documents

Premium datasets in Spanish, Arabic, and Norwegian.
15B tokens per language with 4+ FineWeb-Edu quality rating and high knowledge density.

40.2M

Documents

45B

Total Tokens

Quality Score

Premium Multilingual Datasets

Carefully curated and validated datasets designed specifically for training high-performance language models

🇪🇸

15B tokens

Spanish

13.4M documents

High-quality Spanish content covering diverse domains and text types

🇸🇦

15B tokens

Arabic

13.4M documents

Premium Arabic text data covering diverse domains and professional content

🇳🇴

15B tokens

Norwegian

13.4M documents

Comprehensive Norwegian content from educational and professional sources

Uncompromising Quality Standards

Every document in our datasets has been rigorously validated and filtered to ensure maximum training efficiency

FineWeb-Edu Validated

All documents scored 4+ on the FineWeb-Edu quality classifier

Deduplicated

Advanced deduplication algorithms ensure unique, high-value content

Rich Annotations

Every document annotated with title, topic classification, and format metadata

Token Distribution Analysis

Comprehensive Token Statistics

Detailed breakdown of document token distribution across all languages. Each dataset maintains consistent statistical properties.

13.4M

Documents per Language

15B

Tokens per Language

~1,120

Average Tokens per Document

Token Distribution per Document

Number of documents by token count range (consistent across Spanish, Arabic, and Norwegian)

Peak distribution around 200-600 tokens per document ensures optimal training efficiency

Request Dataset Access

Get in touch to discuss your requirements and receive access to our premium multilingual datasets

Request Access

Fill out the form below and we'll get back to you within 24 hours

[email protected]

What's Included:

• Complete dataset documentation
• Quality metrics and statistics
• Licensing and usage guidelines
• Technical support

40.2M High-QualityMultilingual Documents

Premium Multilingual Datasets

Spanish

Arabic

Norwegian

Uncompromising Quality Standards

FineWeb-Edu Validated

Deduplicated

Rich Annotations

Comprehensive Token Statistics

Token Distribution per Document

Request Dataset Access

Request Access

What's Included:

40.2M High-Quality
Multilingual Documents