Проблема сканирования IBM Watson Discovery - PullRequest
0 голосов
/ 20 июня 2019

Мы хотим проиндексировать наш клиентский веб-сайт и сохранить все данные в Служба IBM Watson Discovery .Когда пользователь задает вопрос, связанный с данными клиента (мы свяжем обнаружение с Watson Assistant).Чатбот должен подключиться к Discovery и получить данные для ответа.

Проблема: на веб-сайте клиента есть несколько ссылок, и каждая ссылка будет иметь дополнительные ссылки, мы хотим просканировать все данные с веб-сайта и проиндексировать и сохранить их в WatsonСервис Discovery.Мы пытались сканировать сайт, но служба обнаружения занимает много времени для сканирования сайта, а также не выполнила задачу через 1 неделю.Пожалуйста, дайте нам знать, как мы можем достичь этого лучше и быстрее.

1 Ответ

0 голосов
/ 21 июня 2019

Обратите внимание, что веб-сканирование является текущей бета-версией, а в документации Watson Discovery для веб-сканирования указано, что в зависимости от веб-сайта он не будет принимать все данные.

Я использовалсканируйте веб-страницы в Discovery по аналогичному сценарию, подобному вашему, и отправляйте запросы на мой веб-сайт с помощью чата, созданного с помощью Watson Assistant.Что вы должны сделать:

  • увеличить количество прыжков: насколько глубоко Watson Discovery должен сканировать ваш сайт
  • в зависимости от вашего сайта: добавить несколько точек входа
  • указатьвсе пути, которые вы хотите исключить.Я добавил те, которые добавляли бы повторяющиеся записи и сгенерированные сводные страницы, RSS-каналы и т. Д.
  • регулирует частоту сканирования
  • , чтобы Watson Discovery мог получить доступ к вашему веб-сайту и чтобы ваш веб-сайт делалне блокировать ползать
...