středa 20. února 2013

Kde sehnat hodně textu I.

Snad nejjednodušší způsob jak se dostat k textovému korpusu alespoň trochu uspokojivé velikost je stáhnout si anglickou Wikipedii. To je možné legálně a naráz na stránce http://dumps.wikimedia.org/enwiki/latest/. Ten pravý soubor je soubor enwiki-latest-pages-articles.xml.bz2. Po rozbalení obdržíme asi 42 GB velkou XML databázi. Dobrá rada: Odolejte pokušení soubor otevřít v prohlížeči XML souborů nebo v internetovém brouzdači. Pracuji na malém skriptu, který z XML udělá čistý text. To se trochu opozdí, ale nezapomenu na to.

Žádné komentáře: