Question

Я тестирую Поиск Azure, чтобы проиндексировать мой сайт для поиска.

Я создал индекс и смог получить информацию со страниц веб-сайта и перенести ее в индекс.

Мой вопрос касается индексации содержимого, скажем, файлов PDF,и текст, и использование когнитивных служб для извлечения текста из изображений в файлах PDF.

В руководствах, связанных с индексацией файлов PDF, предполагается, что файлы PDF находятся в месте, доступном для индексатора поиска, напримерAzure Blob Storage.Поэтому может показаться, что мне придется взять все файлы PDF, которые уже есть на моем веб-сайте, и сохранить их в хранилище BLOB-объектов Azure (каким-то образом сохраняя их исходный URL-адрес), чтобы затем я мог их проиндексировать и извлечь содержимое с использованием источника данных- indexer - index.

Функциональность, которую я ищу, заключается в том, что вы переходите на мой веб-сайт, ищите текст, который может быть в тексте файла PDF или в изображении, и в результате поиска вы получаете исходный URL.в файл PDF (не URL-адрес хранилища Azure).

Можно ли индексировать содержимое файлов PDF непосредственно с моего веб-сайта (включая когнитивные службы) с помощью API-интерфейса REST Azure?Или мне нужно сначала поместить эти файлы в хранилище BLOB-объектов Azure, и если бы я это сделал, как сохранить / сохранить URL-адрес, чтобы при запуске индексатора и извлечении содержимого я мог добавить исходный URL-адрес файла в индекс?

stan G · Answer 1 · 24 сентября 2019

В настоящее время поиск Azure поддерживает платформы в качестве источника данных ниже:

Хранилище BLOB-объектов
Хранилище таблиц
БД Azure Cosmos
SQL Azureбаза данных и SQL Server на виртуальных машинах Azure

Поэтому, если вы хотите проиндексировать свои PDF-файлы, вы должны хранить их в хранилище Azure, чтобы поиск Azure мог точно определять содержимое и индексировать их.

Если вы хотите включить исходный URL-адрес файла в свой индекс, вы можете добавить определяемые пользователем метаданные для вашего блоба pdf, то есть «originalUrl»:

, так что он будет индексироваться поиском Azure:

Надеюсь, это поможет.

Нужно ли сохранять файлы PDF в хранилище BLOB-объектов Azure в OCR и индексировать их?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нужно ли сохранять файлы PDF в хранилище BLOB-объектов Azure в OCR и индексировать их?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы