Вопросы с тегом pdftotext

0 голосов

0 ответов

Массовое переименование pdf с помощью скрипта bash с использованием pdftotext (Debian)

Я борюсь с простым сценарием, чтобы переименовать несколько тысяч pdf-файлов, которые содержат...

petermalig malig / 10 октября 2019

0 голосов

0 ответов

Как извлечь все смелые слова из файла PDF с помощью Python?

Я хочу, чтобы список всех жирных слов из файла PDF был записан в файл txt / docx с использованием...

Khushei Meghana Meda / 02 октября 2019

0 голосов

0 ответов

Как извлечь подробности анализа крови из отчета?

Я пытаюсь извлечь некоторые подробности из отчета о крови: Ввод: PATIENT NAME : XYZ PATIENT ID :...

Rana / 24 сентября 2019

0 голосов

0 ответов

Есть ли способ для pdftotext (linux poppler-utils) взять бинарный файл вместо pdf-файла?

pdftotext похоже, что требуется только имя файла pdf или путь к нему.Документы не очень полезны...

resolute / 22 сентября 2019

0 голосов

0 ответов

Subprocess.run не работает в Docker, особенно для pdftotext (ошибка ввода-вывода, файл не найден)

Это работает локально, но не в контейнере Docker.Я пытаюсь запустить pdftotext в контейнере Docker,...

resolute / 22 сентября 2019

0 голосов

0 ответов

Проблемы с импортом pdftotext в python после установки с использованием homebrew cask

Я пытаюсь разработать приложение, которое требует, чтобы я читал в тексте из PDF-файлов, поэтому я...

Vishal / 10 июля 2019

0 голосов

2 ответов

Как использовать AWS лямбда для преобразования PDF-файлов в .txt с помощью Python

Мне нужно автоматизировать преобразование многих PDF в текстовые файлы, используя AWS lambda в...

Texasitze / 27 июня 2019

0 голосов

1 ответ

Извлечь текст из PDF не работает в Laravel

Я пытаюсь извлечь какой-то текст из PDF-файла в Laravel, используя Spatie-PdfToText.Тем не менее, я...

kish77 / 27 июня 2019

0 голосов

0 ответов

Извлечение текста из PDF-файла, например таблицы

Я пытаюсь создать свою собственную функцию «извлечения таблицы» для файла PDF, в которой я могу...

oliverbj / 26 июня 2019

0 голосов

0 ответов

Python3 - Определение изменений макета между двумя файлами

В настоящее время я пытаюсь создать анализатор таблиц файлов PDF, в котором пользователи могут...

oliverbj / 25 июня 2019

2 голосов

0 ответов

Python - pdftotext продолжает форматировать в таблице, как макет

У меня есть документ PDF с содержанием ниже (упрощенно): pdftotext mypdf.pdf -layout генерирует:...

oliverbj / 24 июня 2019

0 голосов

0 ответов

Сохранить содержимое PDF в текстовый файл

https://stackoverflow.com/a/26673448/8845351 видел это, и теперь я застрял в записи данных,...

tushar.deshpande / 20 июня 2019

0 голосов

0 ответов

Получение ошибки при распаковке pdf через pdftotext

Я получаю сообщение об ошибке «Команда« type -P pdftotext »не выполнена. Код выхода: 127 (Команда...

Sandeep Vishwakarma / 31 мая 2019

0 голосов

0 ответов

Не удалось установить Textract для Windows. Ошибка при установке pocketsphinx 0.1.3

Показывает ошибка: команда 'cl.exe' завершилась неудачно: нет такого файла или каталога У меня есть...

Kopal Sharma / 27 мая 2019

0 голосов

0 ответов

Прочитайте PDF и найдите следующее слово после ключевого слова

Я пытаюсь запустить следующий код, чтобы найти следующие слова в тексте после слова «экзамен». Ввод...

Mauritius / 24 мая 2019

2 голосов

0 ответов

Извлечение данных из счетов в формате PDF или изображения

Я работаю над анализатором счетов, который извлекает данные из счетов в формате pdf или изображения

Android jack - Rajesh Gosemath / 23 мая 2019

6 голосов

0 ответов

Возврат отформатированного текста из результатов GCP Vision PDF

Я наконец-то получил свой сценарий для отправки PDF-документа в Google Storage, а затем для...

santa / 23 мая 2019

0 голосов

1 ответ

Python3 - сохранить стандартный вывод в переменную массива

У меня есть скрипт Python, который преобразует содержимое PDF в строку. text = list(); #npages is...

oliverbj / 21 мая 2019

0 голосов

1 ответ

Разбор PDF-файла и вывод односимвольных расположений

Я пытаюсь извлечь текстовую информацию из (цифрового) PDF путем определения содержания и...

Marco Spinaci / 16 мая 2019

0 голосов

0 ответов

Как визуализировать текстовый слой в формате PDF

Я ищу способ извлечь текст и положение этого текста из PDF с помощью «текстового слоя».Моя цель -...

Moritz Schroeder / 15 мая 2019

1 голос

0 ответов

получить тот же мусор при извлечении текста хинди / девнагри из PDF pdftotext или pdfparser

Я использую php Pdfparser и pdftotext для извлечения текста хинди / девнагри из pdf.Но я получаю...

KJA / 18 апреля 2019

1 голос

0 ответов

Полный пакет сборки "pdftotext" для развертывания на AWS-Lambda с Python3.7

Я пытаюсь развернуть небольшой код Python 3.7, который использует «pdftotext» на AWS-Lambda.Мне...

Vaidya Siva / 10 апреля 2019

0 голосов

0 ответов

Как вывести текстовый блок в pdfMiner

Использую ли PDFMiner для извлечения данных из PDF, до этого я использовал pdftotext, который мог...

Exorcismus / 02 апреля 2019

0 голосов

0 ответов

Как найти в PDF определенные слова и получить вывод для всего файла?

У меня есть PDF-документ длиной более 8000 страниц. Каждая страница связана с определенным знаком с...

T.McMillen / 29 марта 2019

0 голосов

0 ответов

Pdfminer.six Python имеет некоторые проблемы соскребания

Я работаю над Python pdfminer.six, который изначально отлично работал для меня, но теперь у меня...

Shah Muhammad Talha / 20 марта 2019