Индексирование тела html с помощью Azure - PullRequest
0 голосов
/ 10 января 2020

Я пытаюсь проиндексировать серию HTML файлов в хранилище больших двоичных объектов azure. В этом руководстве показано, что для индексации можно использовать метаданные файла HTML, такие как ключевые слова или заголовок. Или вы можете индексировать весь текст в файле, теги и все. Однако я специально хочу индексировать текст внутри тега body в каждом файле HTML.

Кто-нибудь знает, как этого добиться?

1 Ответ

0 голосов
/ 10 января 2020

РЕДАКТИРОВАТЬ: Он должен работать с использованием подхода, описанного в статье.

В качестве другого варианта, если у вас есть навыки кодирования, вы можете использовать HTML Agility Pack , чтобы проанализировать html и проиндексировать только те части, которые вам нужны (например, заголовок, тело, метатеги)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...