Определение формата файла в поиске Azure - PullRequest
0 голосов
/ 10 мая 2019

У нас есть очень большое количество больших двоичных объектов в Azure, которые мы хотели бы добавить в индекс поиска Azure.Эти BLOB-объекты имеют различные форматы (PDF, DOC, RTF и т. Д.), Но ни один из них не имеет расширений файлов.

Из-за этого поиск Azure блокируется при индексации, так как кажется, что он использует только расширение файла.сделать определение формата файла.Мы получаем следующую ошибку, и поскольку все наши файлы имеют эти «недопустимые» расширения, это произойдет независимо от любого порога, установленного для ошибок индексации:

Ошибка импорта конфигурации, ошибка создания индексатора: «Ошибкас источником данных: Документ 'https://XXXXXXX.blob.core.windows.net/folder/filename.00001' имеет неподдерживаемый тип содержимого' неподдерживаемый. Чтобы индексировать только метаданные большого двоичного объекта и игнорировать его содержимое, задайте для свойства конфигурации индексатора dataToExtract значение 'storageMetadata'. См. https://aka.ms/azsearchblobdatatoextract. Чтобы игнорировать эту ошибку и продолжить индексирование больших двоичных объектов с неподдерживаемыми типами содержимого, установите для параметра «failOnUnsupportedContentType» в конфигурации индексатора значение false. Для получения дополнительной информации см. https://aka.ms/blob-indexer-parameters-for-extraction. Пожалуйста, измените определение источника данных, чтобы продолжить. "

Существуют ли способы поиска в Azure: либо обнаружение файла на основе содержимого файла, либо, по крайней мере, использование метаданных для большого двоичного объекта?

1 Ответ

1 голос
/ 10 мая 2019

Поиск Azure уже выполняет определение типа содержимого на основе содержимого, но некоторые двоичные объекты являются проблематичными. Эти проблемные большие двоичные объекты могут быть пропущены во время работы индексатора (с предупреждением, чтобы вы знали, что произошло), но если такой большой двоичный объект встречается во время индексатора creation , создание завершается с ошибкой, с которой вы столкнулись.

Если вы удаляете (или пропускаете, используя метаданные большого двоичного объекта) рассматриваемый большой двоичный объект, работает ли большинство ваших других больших двоичных объектов должным образом? Я подозреваю, что поисковой группе Azure было бы интересно взглянуть на проблемный блоб, если бы вы могли поделиться им.

...