В настоящее время я использовал Scrapy и bs4 для сканирования веб-страниц по содержимому часто задаваемых вопросов.
Однако, поскольку различные веб-сайты по-разному форматируют свои html-структуры, мне придется корректировать теги или xpath при каждом сканировании новой страницы часто задаваемых вопросов.
Я обнаружил, что в Google Dialogflow введена функция «База знаний», в которой пользователю просто нужно проанализировать веб-сайт faq в своей системе, и он сгенерирует список faq.
Теперь я думаю о способах ускорить мою цель:
- Сканирование данных часто задаваемых вопросов с разных веб-сайтов.
Могу ли я узнать, есть ли какая-нибудь библиотека, которую я могу использовать для ускорения процесса?
Или, если есть способ загрузить сгенерированные пары вопросов и ответов из клиента Dialogflow.