User:Jberkel/lists/wanted/20230301

Count Language Raw data
4353961 Finnish fi.jsonl.bz2
1421036 Hungarian hu.jsonl.bz2
853714 Polish pl.jsonl.bz2
652615 Macedonian mk.jsonl.bz2
573952 Ancient Greek grc.jsonl.bz2
570796 Romanian ro.jsonl.bz2
514387 Russian ru.jsonl.bz2
496267 Turkish tr.jsonl.bz2
409348 Serbo-Croatian sh.jsonl.bz2
380886 Spanish es.jsonl.bz2
262038 German de.jsonl.bz2
205392 Czech cs.jsonl.bz2
193859 Ukrainian uk.jsonl.bz2
188803 Arabic ar.jsonl.bz2
180374 English en.jsonl.bz2
165642 Latin la.jsonl.bz2
162712 Irish ga.jsonl.bz2
159071 Icelandic is.jsonl.bz2
152401 Japanese ja.jsonl.bz2
138921 Italian it.jsonl.bz2
138426 Estonian et.jsonl.bz2
115191 Dutch nl.jsonl.bz2
113469 Bulgarian bg.jsonl.bz2
113292 Galician gl.jsonl.bz2
110751 Swedish sv.jsonl.bz2
92513 Basque eu.jsonl.bz2
89576 French fr.jsonl.bz2
83278 Portuguese pt.jsonl.bz2
83255 Greek el.jsonl.bz2
80956 Mandarin cmn.jsonl.bz2
74280 Lithuanian lt.jsonl.bz2
74247 Welsh cy.jsonl.bz2
73025 Persian fa.jsonl.bz2
68729 Esperanto eo.jsonl.bz2
66809 Min Nan nan.jsonl.bz2
64264 Catalan ca.jsonl.bz2
60440 Hindi hi.jsonl.bz2
58301 Danish da.jsonl.bz2
56018 Uzbek uz.jsonl.bz2
51320 Slovak sk.jsonl.bz2
50084 Old Norse non.jsonl.bz2
49333 Belarusian be.jsonl.bz2
48898 Korean ko.jsonl.bz2
45220 Ido io.jsonl.bz2
43379 Tagalog tl.jsonl.bz2
41798 Slovene sl.jsonl.bz2
39010 Norwegian Nynorsk nn.jsonl.bz2
38777 Kyrgyz ky.jsonl.bz2
36876 Latvian lv.jsonl.bz2
35978 Indonesian id.jsonl.bz2
35049 Middle English enm.jsonl.bz2
32094 Vietnamese vi.jsonl.bz2
31669 Faroese fo.jsonl.bz2
29126 Maltese mt.jsonl.bz2
26381 Albanian sq.jsonl.bz2
24020 Thai th.jsonl.bz2
22424 Norwegian Bokmål nb.jsonl.bz2
18062 Malay ms.jsonl.bz2
17571 Cantonese yue.jsonl.bz2
16573 Kazakh kk.jsonl.bz2
15749 Maori mi.jsonl.bz2
14932 Telugu te.jsonl.bz2
14749 Tajik tg.jsonl.bz2
13499 Norwegian no.jsonl.bz2
12324 Bengali bn.jsonl.bz2
11904 Punjabi pa.jsonl.bz2
11369 Urdu ur.jsonl.bz2
10173 Sicilian scn.jsonl.bz2
9945 Afrikaans af.jsonl.bz2
9183 Tamil ta.jsonl.bz2
8047 Turkmen tk.jsonl.bz2
8009 Ottoman Turkish ota.jsonl.bz2
6806 Sardinian sc.jsonl.bz2
6669 Burmese my.jsonl.bz2
6024 Gujarati gu.jsonl.bz2
5441 Yoruba yo.jsonl.bz2
5376 Marathi mr.jsonl.bz2
4953 Greenlandic kl.jsonl.bz2
4351 Pashto ps.jsonl.bz2
4329 Interlingua ia.jsonl.bz2
4174 Walloon wa.jsonl.bz2
4143 Corsican co.jsonl.bz2
4040 Aragonese an.jsonl.bz2
3418 Javanese jv.jsonl.bz2
3222 Egyptian Arabic arz.jsonl.bz2
2872 Tibetan bo.jsonl.bz2
2635 Kannada kn.jsonl.bz2
1389 Hawaiian haw.jsonl.bz2
0 Proto-Iranian ira-pro.jsonl.bz2
0 Proto-Indo-European ine-pro.jsonl.bz2
0 Proto-Germanic gem-pro.jsonl.bz2