Question

Я не профессиональный программист. Мне нужен простой способ извлечь текст из PDF и сохранить текст в Excel.

Я думаю, что Uipath может извлекать текст с помощью OCR. Но я не думаю, что это очень надежный способ.

Могу ли я использовать Uipath для извлечения текста более надежным способом, кроме OCR? 1012 *, R или другое удобное программное обеспечение для извлечения текста из pdf?

Спасибо!

Cameron McKenzie · Answer 1 · 28 августа 2020

Возможности UiPath OCR очень эффективны, когда обрабатываемый PDF-файл или изображение имеют высокое качество. Однако он плохо работает с текстом с низким разрешением. Если OCR - ваш единственный вариант для артефактов низкого качества, вы захотите использовать сложные предложения AI, такие как Google Cloud Vision, в качестве предпочтительного инструмента OCR. Я сравнил UiPath с Cloud Vision , и разница была разительной.

Тегированные и немаркированные PDF-файлы

Проверьте, помечен ли используемый вами PDF-документ тегами или нет. Вы можете просмотреть это, просмотрев свойства документа, как в этом примере:

Better than OCR

If your PDF is tagged, you can use the База привязки UiPath действие для извлечения пар имя-значение. И вы можете выполнить структурированный анализ данных UiPath для извлечения данных табличного типа. Результаты этих извлечений будут очень высокого качества, и работать с ними будет намного проще, чем с парсингом всей страницы или OCR.

Сохранить в Excel

Что касается необходимости сохранения в Excel, в UiPath есть множество встроенных функций для работы с Excel, электронными таблицами и файлами CSV в целом. Основной процесс c таков:

Очистка данных
Сохранение очищенного текста в DataTable
Создание действия Excel Application Scope
Добавьте DataTable в файл Excel

Вот простой пример проекта UiPath Studio, который делает именно это:

As you can see from the image above, the data is scraped, the DataTable is iterated over and finally UiPath сохраняет в Excel :

kwoxer · Answer 2 · 13 июля 2020

OCR - это способ go при извлечении текста из файла PDF .

Ответ # 1: просто используйте действие Read PDF Files, дополнительная информация

Ответ # 2: Конечно, есть много способов извлечь PDF-файлы. Вы можете использовать любую технологию, какую захотите. Но у вас не будет большого успеха без с использованием OCR. Использовать UiPath проще всего, поскольку у вас уже есть предварительно скомпилированные действия, из которых вы можете свободно выбирать.

И не забудьте поиграть с различными технологиями OCR OCRTesseract, OCRMicrosoft и OCRGoogle.

Извлечь текст из PDF и сохранить извлеченный текст в Excel или в другом месте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Тегированные и немаркированные PDF-файлы

Better than OCR

Сохранить в Excel

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь текст из PDF и сохранить извлеченный текст в Excel или в другом месте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Тегированные и немаркированные PDF-файлы

Better than OCR

Сохранить в Excel

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы