5-10 ГБ текстовых файлов для загрузки? - PullRequest
3 голосов
/ 19 марта 2012

Я пытаюсь найти простые текстовые файлы на английском языке (txt) в диапазоне от 5 до 10 ГБ для выполнения задач индексации и поиска. Есть ли какие-нибудь открытые источники, где я могу скачать такой набор данных?

Спасибо

Wajih

Ответы [ 3 ]

2 голосов
/ 19 марта 2012

Я бы порекомендовал использовать BitTorrent для загрузки DVD Project Gutenberg .У них есть несколько ГБ текстов общественного достояния в основном в формате ASCII.

2 голосов
/ 19 марта 2012

Мне тоже было нужно то же самое, когда я проводил исследования для моих магистров пару лет назад. Что я сделал, так это объединил несколько книг с этого сайта:

http://www.gutenberg.org/

1 голос
/ 19 марта 2012

Проверьте этот дамп данных freebase.com на Amazon S3 http://aws.amazon.com/datasets/2320?_encoding=UTF8&jiveRedirect=1

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...