Как начать работу с извлечением информации? - PullRequest
3 голосов
/ 28 сентября 2010

Я новичок, когда дело доходит до извлечения информации.За последние несколько дней я прочитал много научных статей и заказал книгу по НЛП.Я хочу выяснить, как я могу создать систему, подобную FlipDog.com (надеюсь, не с нуля).Они извлекают вакансии с более чем 60 000 веб-сайтов компаний.Как начать?

Я открыт для изучения любого языка программирования.Кто-нибудь использовал Mallet / GATE / MinorThird или RoadRunner?В идеале я хочу иметь возможность обучать систему с набором данных, характерным для моего домена, и получать от него информацию на основе этого.Какую платформу вы бы порекомендовали для этой цели?

Спасибо!

1 Ответ

3 голосов
/ 03 октября 2010

Более быстрый способ извлечь предложения о работе - использовать dapper.net (веб-сервис соскоб с веб-сайтов). Вы можете очень легко научить dapper извлекать данные с помощью визуального редактора. Очень хорошо работает, когда на ваших целевых сайтах есть таблицы.

Чтобы освоить извлечение информации, я предлагаю начать с lingpipe . Это Java-фреймворк для извлечения информации, поэтому вам не нужно изучать особенности архитектуры фреймворка, такие как Gate или Apache UIMA. На веб-сайте lingpipe вы найдете множество учебных пособий, которые помогут вам изучить различные подходы к извлечению информации. После этого предлагаю изучить Gate и UIMA.

Если вы хотите создать такой веб-сайт, вам также необходимо научиться использовать каркас веб-сканера (например, nutch ), веб-поисковые системы ( Yahoo, Google, Bing ). ) и механизмы поиска информации (например, apache lucene ) для предоставления службы поиска поверх извлеченных данных.

Обновление:

Для python лучше всего начать с: http://www.nltk.org/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...