Как я могу исключить список веб-страниц из результатов поиска Google? - PullRequest
0 голосов
/ 27 мая 2018

Знак «минус» не подходит, потому что список состоит из ~ 2000 записей.Я только начинающий в python, поэтому, пожалуйста, объясните, как 5-летнему, если это возможно, Большое спасибо заранее!

1 Ответ

0 голосов
/ 27 мая 2018

Предположительно, вы получаете результаты поиска Google из программы Python.Таким образом, вы можете исключить веб-страницы из своего списка в программе Python при чтении результатов, вместо того чтобы пытаться заставить Google сделать это за вас.Для этого вы можете использовать метод функционального программирования, например, вызвать filter.

В идеале вы могли бы сделать это путем сравнения URL-адресов ссылок, но если вы готовы пожертвовать точностью, вы можете сделать это, сравнив заголовки.вместо ссылок, если в вашем списке были только заголовки, а не URL-адреса.Но URL-адреса определенно лучше подходят для этой цели.

Таким образом, вы можете анализировать результаты поиска Google с помощью библиотеки, такой как Beautiful Soup, извлекать URL-адреса ссылок и отфильтровывать (используя filter) те, которые былиравно любому из URL-адресов в вашем списке (вы можете определить функцию, используя def, для проверки того, находится ли данный URL-адрес в вашем списке).Вы должны быть осторожны, потому что иногда ссылки на результаты поиска Google проходят через веб-сайт Google, который перенаправляет на реальный URL, для ранжирования.

...