Более быстрый способ извлечь предложения о работе - использовать dapper.net (веб-сервис соскоб с веб-сайтов). Вы можете очень легко научить dapper извлекать данные с помощью визуального редактора. Очень хорошо работает, когда на ваших целевых сайтах есть таблицы.
Чтобы освоить извлечение информации, я предлагаю начать с lingpipe . Это Java-фреймворк для извлечения информации, поэтому вам не нужно изучать особенности архитектуры фреймворка, такие как Gate или Apache UIMA. На веб-сайте lingpipe вы найдете множество учебных пособий, которые помогут вам изучить различные подходы к извлечению информации. После этого предлагаю изучить Gate и UIMA.
Если вы хотите создать такой веб-сайт, вам также необходимо научиться использовать каркас веб-сканера (например, nutch ), веб-поисковые системы ( Yahoo, Google, Bing ). ) и механизмы поиска информации (например, apache lucene ) для предоставления службы поиска поверх извлеченных данных.
Обновление:
Для python лучше всего начать с: http://www.nltk.org/