Нужно ли сохранять файлы PDF в хранилище BLOB-объектов Azure в OCR и индексировать их? - PullRequest
0 голосов
/ 23 сентября 2019

Я тестирую Поиск Azure, чтобы проиндексировать мой сайт для поиска.

Я создал индекс и смог получить информацию со страниц веб-сайта и перенести ее в индекс.

Мой вопрос касается индексации содержимого, скажем, файлов PDF,и текст, и использование когнитивных служб для извлечения текста из изображений в файлах PDF.

В руководствах, связанных с индексацией файлов PDF, предполагается, что файлы PDF находятся в месте, доступном для индексатора поиска, напримерAzure Blob Storage.Поэтому может показаться, что мне придется взять все файлы PDF, которые уже есть на моем веб-сайте, и сохранить их в хранилище BLOB-объектов Azure (каким-то образом сохраняя их исходный URL-адрес), чтобы затем я мог их проиндексировать и извлечь содержимое с использованием источника данных- indexer - index.

Функциональность, которую я ищу, заключается в том, что вы переходите на мой веб-сайт, ищите текст, который может быть в тексте файла PDF или в изображении, и в результате поиска вы получаете исходный URL.в файл PDF (не URL-адрес хранилища Azure).

Можно ли индексировать содержимое файлов PDF непосредственно с моего веб-сайта (включая когнитивные службы) с помощью API-интерфейса REST Azure?Или мне нужно сначала поместить эти файлы в хранилище BLOB-объектов Azure, и если бы я это сделал, как сохранить / сохранить URL-адрес, чтобы при запуске индексатора и извлечении содержимого я мог добавить исходный URL-адрес файла в индекс?

1 Ответ

1 голос
/ 24 сентября 2019

В настоящее время поиск Azure поддерживает платформы в качестве источника данных ниже:

  • Хранилище BLOB-объектов
  • Хранилище таблиц
  • БД Azure Cosmos
  • SQL Azureбаза данных и SQL Server на виртуальных машинах Azure

Поэтому, если вы хотите проиндексировать свои PDF-файлы, вы должны хранить их в хранилище Azure, чтобы поиск Azure мог точно определять содержимое и индексировать их.

Если вы хотите включить исходный URL-адрес файла в свой индекс, вы можете добавить определяемые пользователем метаданные для вашего блоба pdf, то есть «originalUrl»: enter image description here

, так что он будет индексироваться поиском Azure: enter image description here enter image description here

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...