Я разрабатываю синтаксический анализатор в ruby, который анализирует некоторые неоднородные текстовые данные. Кто-нибудь может сказать мне, где я могу получить большое количество незашифрованных данных для этого?
Вы можете очистить Википедию (или просто пропустить ее через lynx -dump).Это также даст вам обширный источник неанглийского текста. Project Gutenberg был бы еще одним хорошим источником большого количества простого текста.
lynx -dump
Вот вы получите список из многих:
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
И мой фаворит:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/