Я пишу некоторый код, который вычисляет определенную статистику об использовании слов.
Кто-нибудь знает, где я могу найти базу необработанных новостных статей на различные темы за период (скажем) прошлого года? Желательно, чтобы они были либо в текстовом формате, либо в формате XML. Попытка очистить контент со случайных веб-сайтов не является хорошим вариантом.
Я знаю, что в будущем я мог бы, вероятно, заархивировать их сам. Однако мне нужно начать процесс с кучей существующих статей ... чем больше, тем лучше.
Любые другие идеи для наборов данных корпуса, которые легко доступны в простой для анализа форме, также приветствуются.