Как извлечь текст из файла PDF с помощью функций Azure? - PullRequest
1 голос
/ 08 октября 2019

Я хочу создать функцию Azure, которая будет запускаться каждый раз, когда файл загружается в хранилище BLOB-объектов и извлекает текст из файла PDF. Я не знаю, какую библиотеку лучше всего использовать.

Я нашел это сообщение , в котором показано, как использовать PdfSharp для извлечения текста из файла PDF, но я не могу заставить его работать, так как я впервые использую функции Azure.

1 Ответ

1 голос
/ 08 октября 2019

Этот вопрос слишком широкий и, вероятно, будет закрыт как таковой. Но вот несколько указателей.

  1. Начните с установки эмулятора хранилища Azure, чтобы вы могли создавать большие двоичные объекты для тестирования. Получите это здесь .
  2. Создание функции Azure v2. Настройте триггер хранилища BLOB-объектов, чтобы при записи чего-либо в ваше локальное хранилище вызывался триггер. Триггер BLOB описан здесь .
  3. После того, как вы достигнете точки останова в своей функции Azure, когда BLOB-объект добавлен в локальный эмулятор, вам нужно будет получить байты и извлечь текст, используя PDF-риппер по вашему выбору. Их много, некоторые бесплатные, а некоторые платные. Предложение одного и примеры кода могут содержать несколько тысяч слов, поэтому вам решать, какое из них вы выберете и используете.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...