Огромное количество незашифрованных данных для анализа парсинга - PullRequest
7 голосов
/ 26 апреля 2011

Я разрабатываю синтаксический анализатор в ruby, который анализирует некоторые неоднородные текстовые данные. Кто-нибудь может сказать мне, где я могу получить большое количество незашифрованных данных для этого?

Ответы [ 2 ]

5 голосов
/ 26 апреля 2011

Вы можете очистить Википедию (или просто пропустить ее через lynx -dump).Это также даст вам обширный источник неанглийского текста. Project Gutenberg был бы еще одним хорошим источником большого количества простого текста.

4 голосов
/ 26 апреля 2011
...