Извлечение содержимого FAQ с сайтов с другим доменным именем - PullRequest
1 голос
/ 23 мая 2019

В настоящее время я использовал Scrapy и bs4 для сканирования веб-страниц по содержимому часто задаваемых вопросов.

Однако, поскольку различные веб-сайты по-разному форматируют свои html-структуры, мне придется корректировать теги или xpath при каждом сканировании новой страницы часто задаваемых вопросов.

Я обнаружил, что в Google Dialogflow введена функция «База знаний», в которой пользователю просто нужно проанализировать веб-сайт faq в своей системе, и он сгенерирует список faq.

Теперь я думаю о способах ускорить мою цель:

  • Сканирование данных часто задаваемых вопросов с разных веб-сайтов.

Могу ли я узнать, есть ли какая-нибудь библиотека, которую я могу использовать для ускорения процесса? Или, если есть способ загрузить сгенерированные пары вопросов и ответов из клиента Dialogflow.

...