Question

Я использую API Google CSE JSON для получения некоторых веб-страниц, которые я буду удалять позже. Дело в том, что иногда я получаю PDF, DOCX и некоторые другие файлы, опубликованные в Интернете, которые я не хочу получать от Google.

Я знаю, что в этом API есть параметр с именем fileType это фильтрует результаты, но это не работает для меня, потому что я хочу обратного (исключая их, не исключая других).

Я пытался использовать fileType, сообщая Google, что это 'html'но не работал ни один (от результатов как example.com/foo до только example.net/bar.html). Используя это, например, любая веб-страница в PHP или ASP не будет соответствовать этим критериям.
Я также пытался установить 'text/html' в качестве значения fileType, но ничего не сделал.

Способом фильтрации может быть заголовок Content-Type, включенный в ответ на любую петицию HTTP GET (text/html), но, конечно, будет лучше, если Google сделает это для меня.

Заранее спасибо.

yeuk0 · Answer 1 · 04 октября 2019

Ну, я нашел, как это легко сделать. Просто добавьте фильтр к параметру запроса q в вызове API Google, используя filetype:foo. Таким образом, вы можете отфильтровать результаты поиска только по требуемым результатам:

service.cse().list(cx=const.SEARCH_ENGINE_KEY, q='"user manual" -filetype:pdf').execute()

Вы можете добавить столько фильтров filetype, сколько необходимо для получения лучших результатов.

Теперь я чувствую себя такбыл глупый вопрос. Во всяком случае, я надеюсь, что это поможет любому в будущем.

Как получить только HTML-страницы из API пользовательского поиска Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить только HTML-страницы из API пользовательского поиска Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы