Самая сложная часть НЛП - это получение данных, которые вы можете использовать.Все остальное - просто математика.
Может быть трудно найти большую коллекцию новостных статей, кроме как на веб-сайте каждого источника новостей, из-за всех проблем с авторским правом.Если вам не нужны последние новости, вам лучше всего взглянуть на English Gigaword corpus Консорциума лингвистических данных ;если вы учитесь в университете, возможно, у вас уже существуют отношения, позволяющие вам использовать данные бесплатно.
Если вам действительно нужно сканировать и анализировать веб-сайты, сейчас вы, вероятно, обнаружите, что вам нужно написатьспециальные парсеры для различных новостных сайтов, чтобы убедиться, что вы получите правильный текст.Однако, как только веб-сайты начнут использовать HTML5, будет легче извлечь соответствующий текст с помощью тега article .
Чтобы выполнить фактическое сканирование, этот предыдущий вопрос может указать вам несколько полезных указаний.