Я хочу запросить whitepages.com 4000 раз, как сохранить результаты? - PullRequest
1 голос
/ 03 июня 2010

У меня есть старый список клиентов 4000 предприятий. Я хочу определить, все ли рабочие номера, связанные с каждым списком, все еще работают (и, следовательно, бизнес, вероятно, все еще открыт). Я могу поместить каждое число в whitepages.com и проверять их по одному ... но хочу автоматизировать результаты. Я посмотрел на их API и не могу переварить его. Я могу сформировать правильный URL-адрес запроса, но пробовать такие вещи, как cURL -O, не получается.

У меня есть доступ к инструментам Mac, инструментам Unix, и я могу попробовать разные вещи на JavaScript, если кто-нибудь может указать мне правильное направление ... даже заплатит. Помощь

Thx

Ответы [ 3 ]

5 голосов
/ 03 июня 2010

Согласно комментарию Пекки, большинство компаний с публичным API не разрешают использовать свои условия обслуживания, поэтому вполне возможно, что выполнение запросов 4k GET на их веб-сайт пометит вас как злонамеренного пользователя и попадет в черный список! 1001 *

Их API является RESTful и кажется простым и довольно хорошо документированным, определенно попытайтесь заставить это работать, а не идти другим путем. Хорошей первой попыткой получить ключ API было бы написание сценария UNIX для обратного поиска номера телефона. Например, предположим, что у вас есть все 4000 10-значных телефонных номеров в виде простого текстового файла, по одному на строку без форматирования, вы можете написать простой сценарий bash следующим образом:

#!/bin/bash
INPUT_FILE=phone_numbers.txt 
OUTPUT_DIR=output 
API_KEY='MyWhitePages.comApiKey' 
BASE_URL='http://api.whitepages.com' 

# Perform a reverse lookup on each phone number in the input file. 
for PHONE in $(cat $INPUT_FILE); do 
  URL="${BASE_URL}/reverse_phone/1.0/?phone=${PHONE};api_key=${API_KEY}" 
  curl $URL > "${OUTPUT}/result-${PHONE}.xml"
done 

После того, как вы получили все результаты, вы можете либо проанализировать XML для анализа соответствующих предприятий, либо, если вы просто заинтересованы в существовании, вы можете просто выполнить поиск каждого выходного файла для строки The search did not find results, которая из WhitePages API .com указывает на отсутствие соответствия. Если grep преуспевает, то бизнес не существует (или изменил свой номер телефона), в противном случае он, вероятно, все еще существует (или существует другой бизнес с этим номером телефона).

3 голосов
/ 04 июня 2010

Как уже отмечалось, нарушение нашего веб-сайта или хранение данных, возвращаемых из API, является нарушением. Тем не менее, вы можете получить нужные данные из нашей профессиональной службы по адресу: https://pro.whitepages.com/list-update/upload_file

Dan
API-интерфейс Whitepages.

1 голос
/ 07 октября 2014

Вы можете очистить сайт. у них есть ограничения, если вы продолжаете приходить с того же IP, плюс капча. это достаточно легко обойти, если вы знаете, что делаете. Кроме того, хотя это может нарушать TOS, это, безусловно, не является незаконным. Вы не можете охранять авторские права на телефонные номера и адреса, как гласит закон, поэтому вам не о чем беспокоиться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...