Я использую API Google CSE JSON для получения некоторых веб-страниц, которые я буду удалять позже. Дело в том, что иногда я получаю PDF, DOCX и некоторые другие файлы, опубликованные в Интернете, которые я не хочу получать от Google.
Я знаю, что в этом API есть параметр с именем fileType
это фильтрует результаты, но это не работает для меня, потому что я хочу обратного (исключая их, не исключая других).
- Я пытался использовать
fileType
, сообщая Google, что это 'html'
но не работал ни один (от результатов как example.com/foo
до только example.net/bar.html
). Используя это, например, любая веб-страница в PHP или ASP не будет соответствовать этим критериям. - Я также пытался установить
'text/html'
в качестве значения fileType
, но ничего не сделал.
Способом фильтрации может быть заголовок Content-Type
, включенный в ответ на любую петицию HTTP GET (text/html
), но, конечно, будет лучше, если Google сделает это для меня.
Заранее спасибо.