User:Jberkel/lists/wanted/20240701

Count Language Raw data
24031163 Finnish fi.jsonl.bz2
1719638 Hungarian hu.jsonl.bz2
1022950 Polish pl.jsonl.bz2
698769 Turkish tr.jsonl.bz2
671426 Macedonian mk.jsonl.bz2
641970 Ancient Greek grc.jsonl.bz2
613768 Romanian ro.jsonl.bz2
550848 Russian ru.jsonl.bz2
430324 Serbo-Croatian sh.jsonl.bz2
388744 Spanish es.jsonl.bz2
362901 Czech cs.jsonl.bz2
303602 German de.jsonl.bz2
282398 Ukrainian uk.jsonl.bz2
224354 Arabic ar.jsonl.bz2
217787 Japanese ja.jsonl.bz2
194199 Latin la.jsonl.bz2
187453 English en.jsonl.bz2
181480 Irish ga.jsonl.bz2
173080 Estonian et.jsonl.bz2
167500 Icelandic is.jsonl.bz2
158803 Mandarin cmn.jsonl.bz2
149394 Bulgarian bg.jsonl.bz2
141920 Italian it.jsonl.bz2
138004 Basque eu.jsonl.bz2
133380 Dutch nl.jsonl.bz2
125547 Lithuanian lt.jsonl.bz2
113063 Swedish sv.jsonl.bz2
100995 Welsh cy.jsonl.bz2
100770 French fr.jsonl.bz2
98636 Persian fa.jsonl.bz2
93467 Greek el.jsonl.bz2
86151 Uzbek uz.jsonl.bz2
84210 Kazakh kk.jsonl.bz2
74489 Esperanto eo.jsonl.bz2
71648 Tagalog tl.jsonl.bz2
69809 Old English ang.jsonl.bz2
65483 Hindi hi.jsonl.bz2
63973 Slovak sk.jsonl.bz2
63264 Danish da.jsonl.bz2
59969 Belarusian be.jsonl.bz2
54575 Old Norse non.jsonl.bz2
52881 Albanian sq.jsonl.bz2
52815 Portuguese pt.jsonl.bz2
52633 Korean ko.jsonl.bz2
48649 Kyrgyz ky.jsonl.bz2
46170 Slovene sl.jsonl.bz2
46030 Ido io.jsonl.bz2
43585 Norwegian Nynorsk nn.jsonl.bz2
43086 Maltese mt.jsonl.bz2
42081 Indonesian id.jsonl.bz2
41795 Catalan ca.jsonl.bz2
41764 Galician gl.jsonl.bz2
38773 Middle English enm.jsonl.bz2
38722 Latvian lv.jsonl.bz2
35964 Faroese fo.jsonl.bz2
35180 Vietnamese vi.jsonl.bz2
28838 Tajik tg.jsonl.bz2
28396 Cantonese yue.jsonl.bz2
26435 Thai th.jsonl.bz2
25615 Marathi mr.jsonl.bz2
24408 Norwegian Bokmål nb.jsonl.bz2
22036 Malay ms.jsonl.bz2
22025 Punjabi pa.jsonl.bz2
21990 Bengali bn.jsonl.bz2
18201 Urdu ur.jsonl.bz2
16928 Telugu te.jsonl.bz2
16311 Maori mi.jsonl.bz2
13742 Ottoman Turkish ota.jsonl.bz2
13696 Turkmen tk.jsonl.bz2
13134 Norwegian no.jsonl.bz2
12239 Sicilian scn.jsonl.bz2
12018 Gujarati gu.jsonl.bz2
11887 Afrikaans af.jsonl.bz2
11678 Tamil ta.jsonl.bz2
9805 Greenlandic kl.jsonl.bz2
9448 Old Galician-Portuguese roa-opt.jsonl.bz2
7820 Yoruba yo.jsonl.bz2
7751 Sardinian sc.jsonl.bz2
7574 Burmese my.jsonl.bz2
7054 Moroccan Arabic ary.jsonl.bz2
6017 Walloon wa.jsonl.bz2
5649 Tarifit rif.jsonl.bz2
5194 Javanese jv.jsonl.bz2
5124 Aragonese an.jsonl.bz2
4948 Pashto ps.jsonl.bz2
4703 Interlingua ia.jsonl.bz2
4367 Corsican co.jsonl.bz2
4252 Egyptian Arabic arz.jsonl.bz2
4127 Tibetan bo.jsonl.bz2
3186 Kannada kn.jsonl.bz2
1884 Jeju jje.jsonl.bz2
1590 Hawaiian haw.jsonl.bz2
1567 Min Nan nan.jsonl.bz2
364 Andalusian Arabic xaa.jsonl.bz2
0 Proto-Albanian sqj-pro.jsonl.bz2
0 Proto-Italic itc-pro.jsonl.bz2
0 Proto-Iranian ira-pro.jsonl.bz2
0 Proto-Indo-European ine-pro.jsonl.bz2
0 Proto-Germanic gem-pro.jsonl.bz2