Почему pywhois возвращает пустые заголовки? - PullRequest
0 голосов
/ 21 ноября 2011

Я использую модуль Pywhois в Python для получения заголовков Whois для веб-сайтов.Хотя он работает нормально для большинства сайтов, я пытаюсь понять, почему такие сайты, как google.com и немногие другие возвращаются с черными заголовками.Работает ли PyWhois только с сайтами, которые были вновь созданы после определенной даты?

1 Ответ

0 голосов
/ 12 февраля 2012

Я думаю, что это связано со всеми известными спам-сайтами. Когда вы запускаете whois на google.com, вы получаете список дерьма без каких-либо подробностей записи, и я думаю, что pywhois запускает систему whois внизу и направляет ввод в парсер. Поскольку нет никаких деталей для регулярного выражения синтаксического анализатора для успешного сопоставления, все оказывается пустым. Если вы делаете что-то вроде:

x = pywhois.whois('=google.com')
print x

Вы получите намного больше информации от всего спама, попавшего в ваши результаты. Я пытаюсь найти обходной путь и сейчас. Глядя на этот вопрос: https://superuser.com/questions/37954/how-to-use-command-line-whois-for-spam-infected-domains-like-apple-com Я пытаюсь выяснить, как настроить некоторые параметры для pywhois для выполнения эквивалента этого: whois -h whois-servers.net google.com

Macbook:Sites yellotyellott$ whois google.com

Whois Server Version 2.0

Domain names in the .com and .net domains can now be registered
with many different competing registrars. Go to http://www.internic.net
for detailed information.

GOOGLE.COM.ZZZZZZZZZZZZZ.GET.ONE.MILLION.DOLLARS.AT.WWW.UNIMUNDI.COM
GOOGLE.COM.ZZZZZ.GET.LAID.AT.WWW.SWINGINGCOMMUNITY.COM
GOOGLE.COM.ZOMBIED.AND.HACKED.BY.WWW.WEB-HACK.COM
GOOGLE.COM.ZNAET.PRODOMEN.COM
GOOGLE.COM.YUCEKIRBAC.COM
GOOGLE.COM.YUCEHOCA.COM
GOOGLE.COM.WORDT.DOOR.VEEL.WHTERS.GEBRUIKT.SERVERTJE.NET
GOOGLE.COM.VN
GOOGLE.COM.VABDAYOFF.COM
GOOGLE.COM.UY
GOOGLE.COM.UA
GOOGLE.COM.TW
GOOGLE.COM.TR
GOOGLE.COM.SUCKS.FIND.CRACKZ.WITH.SEARCH.GULLI.COM
GOOGLE.COM.SPROSIUYANDEKSA.RU
GOOGLE.COM.SOUTHBEACHNEEDLEARTISTRY.COM
GOOGLE.COM.SHQIPERIA.COM
GOOGLE.COM.SERVES.PR0N.FOR.ALLIYAH.NET
GOOGLE.COM.SAYS.IWANNATSAHEYLUWITHNINAT.COM
GOOGLE.COM.SA
GOOGLE.COM.REJSCRAP.COM
GOOGLE.COM.PEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEENIS.COM
GOOGLE.COM.PE
GOOGLE.COM.PAVLINOFF-55-11-44.COM
GOOGLE.COM.MY
GOOGLE.COM.MX
GOOGLE.COM.LASERPIPE.COM
GOOGLE.COM.IS.NOT.HOSTED.BY.ACTIVEDOMAINDNS.NET
GOOGLE.COM.IS.HOSTED.ON.PROFITHOSTING.NET
GOOGLE.COM.IS.APPROVED.BY.NUMEA.COM
GOOGLE.COM.HK
GOOGLE.COM.HICHINA.COM
GOOGLE.COM.HAS.LESS.FREE.PORN.IN.ITS.SEARCH.ENGINE.THAN.SECZY.COM
GOOGLE.COM.ESJUEGOS.NET
GOOGLE.COM.DO
GOOGLE.COM.CO
GOOGLE.COM.CN
GOOGLE.COM.BR
GOOGLE.COM.BITERMANSOLUTIONS.COM
GOOGLE.COM.BEYONDWHOIS.COM
GOOGLE.COM.AU
GOOGLE.COM.AR
GOOGLE.COM.AFRICANBATS.ORG
GOOGLE.COM
...