Count Language Raw data
25080661 Finnish fi.jsonl.bz2
1785690 Hungarian hu.jsonl.bz2
1083881 Turkish tr.jsonl.bz2
1062513 Polish pl.jsonl.bz2
741790 Ancient Greek grc.jsonl.bz2
693803 Armenian hy.jsonl.bz2
674235 Macedonian mk.jsonl.bz2
628518 Romanian ro.jsonl.bz2
585000 Russian ru.jsonl.bz2
444235 Czech cs.jsonl.bz2
435826 Serbo-Croatian sh.jsonl.bz2
416277 Spanish es.jsonl.bz2
335295 German de.jsonl.bz2
318187 Ukrainian uk.jsonl.bz2
242393 Arabic ar.jsonl.bz2
205790 Latin la.jsonl.bz2
186756 Estonian et.jsonl.bz2
186545 Icelandic is.jsonl.bz2
185313 Irish ga.jsonl.bz2
179802 English en.jsonl.bz2
171872 Japanese ja.jsonl.bz2
169304 Mandarin cmn.jsonl.bz2
157384 Bulgarian bg.jsonl.bz2
148133 Basque eu.jsonl.bz2
144465 Italian it.jsonl.bz2
144441 Dutch nl.jsonl.bz2
140572 Lithuanian lt.jsonl.bz2
136809 Gothic got.jsonl.bz2
126547 Old French fro.jsonl.bz2
116110 Swedish sv.jsonl.bz2
114990 Old Armenian xcl.jsonl.bz2
114599 Welsh cy.jsonl.bz2
112606 Slovak sk.jsonl.bz2
111694 Uzbek uz.jsonl.bz2
106557 French fr.jsonl.bz2
106100 Persian fa.jsonl.bz2
102885 Greek el.jsonl.bz2
88527 Kazakh kk.jsonl.bz2
83725 Danish da.jsonl.bz2
79821 Albanian sq.jsonl.bz2
79498 Esperanto eo.jsonl.bz2
78922 Tagalog tl.jsonl.bz2
71210 Hindi hi.jsonl.bz2
68091 Hebrew he.jsonl.bz2
66966 Portuguese pt.jsonl.bz2
65350 Occitan oc.jsonl.bz2
65141 Belarusian be.jsonl.bz2
60300 Old English ang.jsonl.bz2
55804 Old Norse non.jsonl.bz2
54836 Korean ko.jsonl.bz2
52628 Indonesian id.jsonl.bz2
51549 Slovene sl.jsonl.bz2
50336 Kyrgyz ky.jsonl.bz2
49895 Catalan ca.jsonl.bz2
48480 Galician gl.jsonl.bz2
46964 Latvian lv.jsonl.bz2
46672 Faroese fo.jsonl.bz2
46061 Ido io.jsonl.bz2
45607 Norwegian Nynorsk nn.jsonl.bz2
44202 Maltese mt.jsonl.bz2
43887 Marathi mr.jsonl.bz2
40504 Middle English enm.jsonl.bz2
38092 Vietnamese vi.jsonl.bz2
36230 Bengali bn.jsonl.bz2
35322 Middle French frm.jsonl.bz2
34277 Tajik tg.jsonl.bz2
33799 Assyrian Neo-Aramaic aii.jsonl.bz2
31406 Punjabi pa.jsonl.bz2
30096 Cantonese yue.jsonl.bz2
27397 Thai th.jsonl.bz2
27086 Urdu ur.jsonl.bz2
25567 Norwegian Bokmål nb.jsonl.bz2
25249 Malay ms.jsonl.bz2
19906 Ottoman Turkish ota.jsonl.bz2
19060 Navajo nv.jsonl.bz2
18626 Burmese my.jsonl.bz2
18472 Old Irish sga.jsonl.bz2
17936 Yiddish yi.jsonl.bz2
17652 Turkmen tk.jsonl.bz2
17364 Telugu te.jsonl.bz2
16771 Maori mi.jsonl.bz2
16450 Scottish Gaelic gd.jsonl.bz2
15109 Sicilian scn.jsonl.bz2
14465 Gujarati gu.jsonl.bz2
12942 Tamil ta.jsonl.bz2
12672 Norwegian no.jsonl.bz2
12646 Afrikaans af.jsonl.bz2
11690 Old Galician-Portuguese roa-opt.jsonl.bz2
10212 Old Tupi tpw.jsonl.bz2
9942 Greenlandic kl.jsonl.bz2
9519 Cornish kw.jsonl.bz2
8120 Yoruba yo.jsonl.bz2
7944 Breton br.jsonl.bz2
7926 Sardinian sc.jsonl.bz2
7235 Javanese jv.jsonl.bz2
7053 Moroccan Arabic ary.jsonl.bz2
6575 Egyptian Arabic arz.jsonl.bz2
6523 Aragonese an.jsonl.bz2
6193 Walloon wa.jsonl.bz2
5764 Tarifit rif.jsonl.bz2
5343 Fala fax.jsonl.bz2
5210 Pashto ps.jsonl.bz2
4803 Interlingua ia.jsonl.bz2
4739 Tibetan bo.jsonl.bz2
4465 Akkadian akk.jsonl.bz2
4427 Corsican co.jsonl.bz2
3931 Classical Syriac syc.jsonl.bz2
3577 Kannada kn.jsonl.bz2
3464 Mapudungun arn.jsonl.bz2
3145 Middle Irish mga.jsonl.bz2
2701 Aramaic arc.jsonl.bz2
2216 Jeju jje.jsonl.bz2
2030 Old Occitan pro.jsonl.bz2
2030 Hawaiian haw.jsonl.bz2
1631 Mirandese mwl.jsonl.bz2
1604 Min Nan nan.jsonl.bz2
1509 Middle Welsh wlm.jsonl.bz2
1323 Nheengatu yrl.jsonl.bz2
1165 Old Catalan roa-oca.jsonl.bz2
682 Tashelhit shi.jsonl.bz2
578 Igbo ig.jsonl.bz2
413 Cypriot Arabic acy.jsonl.bz2
381 Andalusian Arabic xaa.jsonl.bz2
192 Judeo-Tat jdt.jsonl.bz2
144 Tsakonian tsd.jsonl.bz2
85 Nigerian Pidgin pcm.jsonl.bz2
13 Moroccan Amazigh zgh.jsonl.bz2
0 Proto-Albanian sqj-pro.jsonl.bz2
0 Proto-Italic itc-pro.jsonl.bz2
0 Proto-Iranian ira-pro.jsonl.bz2
0 Proto-Indo-European ine-pro.jsonl.bz2
0 Proto-Germanic gem-pro.jsonl.bz2
0 Proto-Celtic cel-pro.jsonl.bz2
0 Proto-Brythonic cel-bry-pro.jsonl.bz2