Что я должен использовать, чтобы сканировать много новостных статей? - PullRequest
2 голосов
/ 29 ноября 2010

У меня есть проект обработки естественного языка, но для этого мне нужно отсканировать множество веб-статей из некоторых источников, таких как новости Yahoo, новости Google или блоги ...

Я разработчик Java (такЯ бы предпочел использовать инструменты Java).Я думаю, что могу разобрать каждый исходный сайт самостоятельно и извлечь статьи с помощью HttpClient / XPath, но я немного ленивый :) Есть ли способ, чтобы мне не пришлось делать парсер для источника?

(меня интересуют не только новые статьи, но и статьи с 2000 года по настоящее время)

1 Ответ

4 голосов
/ 29 ноября 2010

Самая сложная часть НЛП - это получение данных, которые вы можете использовать.Все остальное - просто математика.

Может быть трудно найти большую коллекцию новостных статей, кроме как на веб-сайте каждого источника новостей, из-за всех проблем с авторским правом.Если вам не нужны последние новости, вам лучше всего взглянуть на English Gigaword corpus Консорциума лингвистических данных ;если вы учитесь в университете, возможно, у вас уже существуют отношения, позволяющие вам использовать данные бесплатно.

Если вам действительно нужно сканировать и анализировать веб-сайты, сейчас вы, вероятно, обнаружите, что вам нужно написатьспециальные парсеры для различных новостных сайтов, чтобы убедиться, что вы получите правильный текст.Однако, как только веб-сайты начнут использовать HTML5, будет легче извлечь соответствующий текст с помощью тега article .

Чтобы выполнить фактическое сканирование, этот предыдущий вопрос может указать вам несколько полезных указаний.

...