просматривать файлы на определенном количестве страниц - PullRequest
0 голосов
/ 18 ноября 2018

Мне интересно, есть ли способ получения результатов поиска, содержащих только файлы на определенном количестве страниц или выше.

В настоящее время я использую браузер Chrome и пытаюсь извлечь файлы PDF с помощью фильтра типов файлов.:

filetype:pdf

и я хотел бы видеть только файлы размером 30 страниц или более.

До сих пор я пытался сначала загрузить файлы, а затем использовать Python для проверки количества страниц.Есть ли опция расширенного поискового фильтра Google, которая позволяет это сделать (возможно, косвенно, путем управления размером файла?), Или, возможно, другой браузер, который позволяет эту функцию?

Ответы [ 2 ]

0 голосов
/ 22 ноября 2018

Мне интересно, есть ли способ получения результатов поиска содержит только файлы на определенном количестве страниц или выше.

Нет , боюсь, нет способа сделать это.
Поисковые системы не предоставляют операторам возможность поиска документов с количеством страниц X. Поиск по размеру файла является ненадежным , поскольку a 2 страница pdf может иметь 30 Mb, а другой с 20 страницами всего 1Mb. Размер зависит от встроенного носителя, сжатия и других факторов.

0 голосов
/ 21 ноября 2018

Для этого вам необходимо использовать Функция поиска Googles Advances. Это позволяет создавать запросы с большей детализацией, а также видеть правильный синтаксис для компиляции этого поиска.Чтобы более точно ответить на ваш вопрос для поиска в PDF по количеству страниц, при выполнении поиска в Google отформатируйте поиск следующим образом:

"Your search Criteria" filetype:pdf 0..30

Где минимальное количество страницэто O, а максимальное количество страниц равно 30. Если вы хотите, чтобы минимум 30 без установленного максимума, вы можете оставить поле пустым следующим образом: "Your search Criteria" filetype:pdf 30..

Получив эти результаты поиска, вы можетеиспользуйте BeautifulSoup, scrapy и т. д., чтобы получить список ссылок и перебрать их, чтобы загрузить все файлы PDF

.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...