Извлечь текст из PDF и сохранить извлеченный текст в Excel или в другом месте - PullRequest
0 голосов
/ 13 июля 2020

Я не профессиональный программист. Мне нужен простой способ извлечь текст из PDF и сохранить текст в Excel.

Я думаю, что Uipath может извлекать текст с помощью OCR. Но я не думаю, что это очень надежный способ.

  1. Могу ли я использовать Uipath для извлечения текста более надежным способом, кроме OCR? 1012 *, R или другое удобное программное обеспечение для извлечения текста из pdf?

Спасибо!

Ответы [ 2 ]

0 голосов
/ 28 августа 2020

Возможности UiPath OCR очень эффективны, когда обрабатываемый PDF-файл или изображение имеют высокое качество. Однако он плохо работает с текстом с низким разрешением. Если OCR - ваш единственный вариант для артефактов низкого качества, вы захотите использовать сложные предложения AI, такие как Google Cloud Vision, в качестве предпочтительного инструмента OCR. Я сравнил UiPath с Cloud Vision , и разница была разительной.

Тегированные и немаркированные PDF-файлы

Проверьте, помечен ли используемый вами PDF-документ тегами или нет. Вы можете просмотреть это, просмотрев свойства документа, как в этом примере:

enter image description here

Better than OCR

If your PDF is tagged, you can use the База привязки UiPath действие для извлечения пар имя-значение. И вы можете выполнить структурированный анализ данных UiPath для извлечения данных табличного типа. Результаты этих извлечений будут очень высокого качества, и работать с ними будет намного проще, чем с парсингом всей страницы или OCR.

Сохранить в Excel

Что касается необходимости сохранения в Excel, в UiPath есть множество встроенных функций для работы с Excel, электронными таблицами и файлами CSV в целом. Основной процесс c таков:

  1. Очистка данных
  2. Сохранение очищенного текста в DataTable
  3. Создание действия Excel Application Scope
  4. Добавьте DataTable в файл Excel

Вот простой пример проекта UiPath Studio, который делает именно это:

enter image description here

As you can see from the image above, the data is scraped, the DataTable is iterated over and finally UiPath сохраняет в Excel :

0 голосов
/ 13 июля 2020

OCR - это способ go при извлечении текста из файла PDF .

Ответ # 1: просто используйте действие Read PDF Files, дополнительная информация

Ответ # 2: Конечно, есть много способов извлечь PDF-файлы. Вы можете использовать любую технологию, какую захотите. Но у вас не будет большого успеха без с использованием OCR. Использовать UiPath проще всего, поскольку у вас уже есть предварительно скомпилированные действия, из которых вы можете свободно выбирать.

И не забудьте поиграть с различными технологиями OCR OCRTesseract, OCRMicrosoft и OCRGoogle.

...