Как скрести автозаполнение? - PullRequest
1 голос
/ 16 марта 2020

Я пытался очистить автозаполнение веб-сайта. В основном я пытался получить каждую запись в своем автозаполнении. Первое, что пришло мне в голову, это написать рекурсивный скребок, поэтому он проверяет все комбинации - аа, ааа, аааб и т. Д. c. (Для всех 26 алфавитов). Но это кажется невероятно неэффективным. Мой второй подход состоял в том, чтобы почистить некоторые из их документов, вычислить Tf-IDF и извлечь ключевые слова. Это дало хорошие результаты, но я уверен, что не смогу охватить всю их базу данных. Есть ли другие методы? Что вы посоветуете?

С уважением,

1 Ответ

0 голосов
/ 19 марта 2020

Для страницы: https://indiankanoon.org/

Когда вы вводите что-то в поле поиска, он отправляет запрос на https://indiankanoon.org/qsuggest/?term=, который возвращает информацию автозаполнения. Вместо того, чтобы пытаться очистить https://indiankanoon.org/, я бы вместо этого очистил страницу qsuggest.

https://indiankanoon.org/qsuggest/?term=aaa

Следует отметить, что страница qsuggest возвращает результаты только для терминов с 3 или более буквами. Очистка всех трехбуквенных комбинаций, которые составят более 17000 запросов. Если вы отправляете запрос каждые 5 секунд, получение всей информации займет чуть более 60 дней, при условии, что сайт не заблокирует вас первым. У них есть API, указанный на веб-сайте, возможно, это может помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...