Я пытался очистить автозаполнение веб-сайта. В основном я пытался получить каждую запись в своем автозаполнении. Первое, что пришло мне в голову, это написать рекурсивный скребок, поэтому он проверяет все комбинации - аа, ааа, аааб и т. Д. c. (Для всех 26 алфавитов). Но это кажется невероятно неэффективным. Мой второй подход состоял в том, чтобы почистить некоторые из их документов, вычислить Tf-IDF и извлечь ключевые слова. Это дало хорошие результаты, но я уверен, что не смогу охватить всю их базу данных. Есть ли другие методы? Что вы посоветуете?
С уважением,