Где я могу найти дамп необработанного текста в Интернете? - PullRequest
5 голосов
/ 02 августа 2010

Я хочу провести анализ текста в программе, которую я пишу. Я ищу альтернативные источники текста в необработанном виде, аналогичном тому, который представлен в дампах Википедии (download.wikimedia.com).

Я бы предпочел не сталкиваться с проблемой сканирования веб-сайтов, попытки анализа html, извлечения текста и т. Д.

Ответы [ 3 ]

7 голосов
/ 02 августа 2010

Какой тип текста вы ищете?

Существует множество бесплатных электронных книг (художественная и документальная) в формате .txt, доступных на Project Gutenberg .

У них также есть больших образов DVD полных книг, доступных для скачивания.

3 голосов
/ 02 августа 2010

NLTK предоставляет простой Python API для доступа к многим текстовым корпорациям , включая Гутенберга, Рейтерса, Шекспира и других.

0 голосов
/ 02 августа 2010

проект Гутенберга содержит огромное количество электронных книг в различных форматах (включая обычный текст)

...