Возможности UiPath OCR очень эффективны, когда обрабатываемый PDF-файл или изображение имеют высокое качество. Однако он плохо работает с текстом с низким разрешением. Если OCR - ваш единственный вариант для артефактов низкого качества, вы захотите использовать сложные предложения AI, такие как Google Cloud Vision, в качестве предпочтительного инструмента OCR. Я сравнил UiPath с Cloud Vision , и разница была разительной.
Тегированные и немаркированные PDF-файлы
Проверьте, помечен ли используемый вами PDF-документ тегами или нет. Вы можете просмотреть это, просмотрев свойства документа, как в этом примере:
Better than OCR
If your PDF is tagged, you can use the База привязки UiPath действие для извлечения пар имя-значение. И вы можете выполнить структурированный анализ данных UiPath для извлечения данных табличного типа. Результаты этих извлечений будут очень высокого качества, и работать с ними будет намного проще, чем с парсингом всей страницы или OCR.
Сохранить в Excel
Что касается необходимости сохранения в Excel, в UiPath есть множество встроенных функций для работы с Excel, электронными таблицами и файлами CSV в целом. Основной процесс c таков:
- Очистка данных
- Сохранение очищенного текста в DataTable
- Создание действия Excel Application Scope
- Добавьте DataTable в файл Excel
Вот простой пример проекта UiPath Studio, который делает именно это:
As you can see from the image above, the data is scraped, the DataTable is iterated over and finally UiPath сохраняет в Excel :