Где я могу получить необработанные новости за последний год? - PullRequest
2 голосов
/ 02 марта 2010

Я пишу некоторый код, который вычисляет определенную статистику об использовании слов.

Кто-нибудь знает, где я могу найти базу необработанных новостных статей на различные темы за период (скажем) прошлого года? Желательно, чтобы они были либо в текстовом формате, либо в формате XML. Попытка очистить контент со случайных веб-сайтов не является хорошим вариантом.

Я знаю, что в будущем я мог бы, вероятно, заархивировать их сам. Однако мне нужно начать процесс с кучей существующих статей ... чем больше, тем лучше.

Любые другие идеи для наборов данных корпуса, которые легко доступны в простой для анализа форме, также приветствуются.

1 Ответ

0 голосов
/ 02 марта 2010

Вы можете попробовать Интернет-архив . У них есть текстовый раздел, но я не знаю, есть ли в нем новости. Вы также можете использовать их Wayback-машину для получения новостных статей с крупного сайта, используя их RSS-каналы.

...