Извлечение ключевых слов из офисных документов с помощью Sharepoint Flow - PullRequest
0 голосов
/ 24 января 2019

Я пытаюсь внедрить систему управления документами, используя Sharepoint.Одна из основных проблем заключается в том, что коллеги не могут найти документы в текущей настройке (локальный файловый сервер).Они попросили, чтобы у нас была система, которая сканирует загруженные документы и автоматически ищет в них ключевые слова, а затем заполняет столбец «Мета».

У меня был своего рода успех с OCR для файлов изображений, но получение ключевых слов из офисных документов (doc, xls и т. Д.) До сих пор не имело успеха.

Есть ли способ настроить поток, чтобы выполнить эту задачу для меня?

любая помощь сильно увязана.

я пробовал "Получить метаданные файла" и Azure "Текстанализ », но, похоже, он берет необработанные данные файлов (я полагаю, XML) и возвращает, что документ слишком большой для анализа.

1 Ответ

0 голосов
/ 24 января 2019

В этом требовании есть что-то неопределенное - как определяется ключевое слово в документе?

Таким образом, первое очевидное решение - назначить ключевые слова для каждого файла при его загрузке. Вы можете создать для этого процесс с помощью потока - иметь задачи, напоминания и т. Д.

Автоматизация сначала с помощью OCR означает, что вам нужно использовать OCR, который работает с потоком MS, у вас есть только один выбор - ElasticOCR. Тогда в вашем потоке - передать содержимое документа в действие ElasticOCR - имейте в виду, что OCR не является точным на 100% - анализировать сгенерированный текстовый контент согласно определению вашего ключевого слова - наконец запишите мета обратно в библиотеку в соответствующих столбцах.

Поработав над аналогичным требованием, мы попросили загрузчиков опубликовать свои документы с краткой аннотацией (столбец из типа контента). Предполагается, что реферат содержит ключевые слова и хранится в многострочном столбце, что делает его доступным для поиска по сайту.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...