как получить URL контактной страницы компании - PullRequest
1 голос
/ 19 ноября 2009

Привет, у меня есть CSV-файл, который содержит список URL компании, например, www.google.com, www.ibm.com .....

Здесь я хочу получить контакт или URL страницы aboutus (пример http://www.google.com/contact) для каждого URL, который присутствует в CSV-файле. У меня есть идея проверить ссылки со следующими шаблонами (свяжитесь с нами, о нас, о места).

Если вы не найдете ничего из этого, отметьте URL-адрес и запишите его в файл журнала. Если вы найдете шаблон, просто напечатайте адрес (он используется для какого-то другого процесса)

Ответы [ 2 ]

2 голосов
/ 19 ноября 2009

Я бы предложил использовать Beautiful Soup для анализа страницы. Другой альтернативой может быть установка HIT на Mechanical Turk.

0 голосов
/ 21 июня 2013

скрап является лучшим. Лучшая вещь о scrapy - то, что это - открытый источник. документация по скрапу

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...