Поиск сайтов по названию компании - PullRequest
3 голосов
/ 03 декабря 2009

У меня есть список из 6000 названий компаний (вместе с адресом их штаб-квартиры), и мне нужно найти веб-адрес для каждого из них. Я рассматриваю возможность использования веб-API Google (очевидно, это займет несколько дней, поскольку разрешено только 1000 запросов в день) (выполните поиск по запросу "COMPANY_NAME CITY STATE") и затем получите первый результат. Однако я не уверен на 100%, что это сработает, и я чувствую, что есть лучший способ. Я могу сделать это на любом языке, который я знаю на самом деле, C ++, Java, PHP, Python. Это нужно запустить только один раз.

Как бы я использовал WHOIS для этого? Я знаю, как бы это сделать, если бы я уже знал URL, но не наоборот (имя для URL). И что бы я сделал, если бы он был зарегистрирован в частном порядке?

Кстати, это американские компании.

Ответы [ 2 ]

0 голосов
/ 03 декабря 2009

Использование Amazons Mechanical Turk . Он идеально подходит для задач такого рода, которые сложно автоматизировать, и, как правило, для их проверки требуется человек. Это будет стоить немного, но должно быть управляемым, в зависимости от того, насколько плохо вы хотите получить результаты.

0 голосов
/ 03 декабря 2009

Вы можете использовать WHOIS вместо Google API для этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...