Я пытаюсь найти простые текстовые файлы на английском языке (txt) в диапазоне от 5 до 10 ГБ для выполнения задач индексации и поиска. Есть ли какие-нибудь открытые источники, где я могу скачать такой набор данных?
Спасибо
Wajih
Я бы порекомендовал использовать BitTorrent для загрузки DVD Project Gutenberg .У них есть несколько ГБ текстов общественного достояния в основном в формате ASCII.
Мне тоже было нужно то же самое, когда я проводил исследования для моих магистров пару лет назад. Что я сделал, так это объединил несколько книг с этого сайта:
http://www.gutenberg.org/
Проверьте этот дамп данных freebase.com на Amazon S3 http://aws.amazon.com/datasets/2320?_encoding=UTF8&jiveRedirect=1