User:Jberkel/lists/wanted/20220601

Count Language Raw data
4456868 Finnish fi.jsonl.bz2
1362481 Hungarian hu.jsonl.bz2
796821 Polish pl.jsonl.bz2
656714 Macedonian mk.jsonl.bz2
528643 Ancient Greek grc.jsonl.bz2
508087 Russian ru.jsonl.bz2
476479 Romanian ro.jsonl.bz2
447447 Turkish tr.jsonl.bz2
412906 Serbo-Croatian sh.jsonl.bz2
323024 Spanish es.jsonl.bz2
262063 German de.jsonl.bz2
192213 Czech cs.jsonl.bz2
191256 Arabic ar.jsonl.bz2
178554 English en.jsonl.bz2
166089 Irish ga.jsonl.bz2
159680 Latin la.jsonl.bz2
158083 Icelandic is.jsonl.bz2
146531 Japanese ja.jsonl.bz2
140743 Ukrainian uk.jsonl.bz2
136987 Italian it.jsonl.bz2
125371 Estonian et.jsonl.bz2
114969 Galician gl.jsonl.bz2
114845 Dutch nl.jsonl.bz2
110917 Bulgarian bg.jsonl.bz2
89186 Swedish sv.jsonl.bz2
87540 Portuguese pt.jsonl.bz2
81910 Greek el.jsonl.bz2
80863 French fr.jsonl.bz2
77948 Mandarin cmn.jsonl.bz2
76858 Lithuanian lt.jsonl.bz2
72762 Basque eu.jsonl.bz2
71540 Persian fa.jsonl.bz2
71242 Welsh cy.jsonl.bz2
67584 Esperanto eo.jsonl.bz2
67541 Min Nan nan.jsonl.bz2
59246 Hindi hi.jsonl.bz2
57977 Danish da.jsonl.bz2
54657 Uzbek uz.jsonl.bz2
53266 Catalan ca.jsonl.bz2
51414 Old Norse non.jsonl.bz2
48294 Slovak sk.jsonl.bz2
46192 Korean ko.jsonl.bz2
45292 Ido io.jsonl.bz2
44910 Belarusian be.jsonl.bz2
40337 Slovene sl.jsonl.bz2
35931 Norwegian Nynorsk nn.jsonl.bz2
34121 Tagalog tl.jsonl.bz2
33335 Indonesian id.jsonl.bz2
33241 Middle English enm.jsonl.bz2
32960 Latvian lv.jsonl.bz2
31603 Faroese fo.jsonl.bz2
30466 Vietnamese vi.jsonl.bz2
24276 Thai th.jsonl.bz2
22169 Norwegian Bokmål nb.jsonl.bz2
17005 Cantonese yue.jsonl.bz2
16597 Malay ms.jsonl.bz2
16385 Kazakh kk.jsonl.bz2
15618 Maori mi.jsonl.bz2
15318 Tajik tg.jsonl.bz2
14409 Telugu te.jsonl.bz2
13733 Norwegian no.jsonl.bz2
12958 Kyrgyz ky.jsonl.bz2
11217 Bengali bn.jsonl.bz2
10254 Urdu ur.jsonl.bz2
9647 Afrikaans af.jsonl.bz2
9102 Punjabi pa.jsonl.bz2
8550 Sicilian scn.jsonl.bz2
8545 Tamil ta.jsonl.bz2
7274 Turkmen tk.jsonl.bz2
6658 Sardinian sc.jsonl.bz2
6168 Ottoman Turkish ota.jsonl.bz2
5911 Gujarati gu.jsonl.bz2
5727 Yoruba yo.jsonl.bz2
4293 Interlingua ia.jsonl.bz2
4266 Marathi mr.jsonl.bz2
4116 Pashto ps.jsonl.bz2
3977 Corsican co.jsonl.bz2
3899 Walloon wa.jsonl.bz2
3717 Aragonese an.jsonl.bz2
3134 Egyptian Arabic arz.jsonl.bz2
2889 Javanese jv.jsonl.bz2
2586 Tibetan bo.jsonl.bz2
2503 Kannada kn.jsonl.bz2
1314 Hawaiian haw.jsonl.bz2
0 Proto-Iranian ira-pro.jsonl.bz2
0 Proto-Indo-European ine-pro.jsonl.bz2
0 Proto-Germanic gem-pro.jsonl.bz2