Выскабливание LinkedIn с помощью Python - PullRequest
0 голосов
/ 24 января 2019

Я немного борюсь с очисткой публичной информации LinkedIn.Я пытаюсь получить идентификатор компании или номер компании.

Я подумал, что самым простым способом будет просто открыть исходный код страницы в любом браузере, а число между "3FfacetCurrentCompany%3D% 255B "и"% "- это идентификатор компании.Обратите внимание, что вы должны выйти из своей учетной записи LinkedIn.Если вы вошли в систему, номер невидим.

Итак, я пытался открыть серию таких страниц, например, с помощью селена и хроматического драйвера, скопировать page_source и просто использовать некоторое регулярное выражение для получения этого числа.К сожалению, когда я открываю эту ссылку с хромом и селеном, «page_source» полностью отличается от того, как я делаю это вручную.LinkedIn, вероятно, блокирует этот вид деятельности, я прав?

Я не хотел использовать API LinkedIn для публичной информации, но, похоже, мне это нужно? Документы

В документации я обнаружил, как получить название компании и другую информацию на основе company_id .... но я не могу найти никакого решения, как получить company_id Company на основе имени,ссылка на страницу и т.д ...

Кто-нибудь из вас пытался сделать что-то подобное?Могу ли я сделать это без входа в их API?

...