Я тестирую Поиск Azure, чтобы проиндексировать мой сайт для поиска.
Я создал индекс и смог получить информацию со страниц веб-сайта и перенести ее в индекс.
Мой вопрос касается индексации содержимого, скажем, файлов PDF,и текст, и использование когнитивных служб для извлечения текста из изображений в файлах PDF.
В руководствах, связанных с индексацией файлов PDF, предполагается, что файлы PDF находятся в месте, доступном для индексатора поиска, напримерAzure Blob Storage.Поэтому может показаться, что мне придется взять все файлы PDF, которые уже есть на моем веб-сайте, и сохранить их в хранилище BLOB-объектов Azure (каким-то образом сохраняя их исходный URL-адрес), чтобы затем я мог их проиндексировать и извлечь содержимое с использованием источника данных- indexer - index.
Функциональность, которую я ищу, заключается в том, что вы переходите на мой веб-сайт, ищите текст, который может быть в тексте файла PDF или в изображении, и в результате поиска вы получаете исходный URL.в файл PDF (не URL-адрес хранилища Azure).
Можно ли индексировать содержимое файлов PDF непосредственно с моего веб-сайта (включая когнитивные службы) с помощью API-интерфейса REST Azure?Или мне нужно сначала поместить эти файлы в хранилище BLOB-объектов Azure, и если бы я это сделал, как сохранить / сохранить URL-адрес, чтобы при запуске индексатора и извлечении содержимого я мог добавить исходный URL-адрес файла в индекс?