Вопросы с тегом pdfminer

0 голосов

0 ответов

Синтаксический анализ таблицы pdf возвращает текст с помощью (cid: xxx)

Камелот может правильно определить схему таблицы на странице PDF, однако некоторые столбцы содержат...

msdev / 02 января 2019

0 голосов

3 ответов

Я получаю синтаксическую ошибку в своем операторе IF, не знаете почему?

Я пытаюсь запустить следующий код в Python 3.7.Я продолжаю получать неверную синтаксическую ошибку...

Jlingz14 / 28 декабря 2018

0 голосов

0 ответов

Есть ли код, который позволяет мне использовать координаты для извлечения текста из региона в PDF?

Я пытаюсь извлечь некоторый текст из определенной области в PDF.Всего в PDF 10 разделов, и я хочу...

Jlingz14 / 27 декабря 2018

0 голосов

0 ответов

Проверьте, правильно ли отображаются данные из данных XSLT и XML

Я сгенерировал PDF, используя данные XSLT и XML.Теперь я хочу проверить, все ли содержимое...

Raj Thakur / 17 декабря 2018

0 голосов

1 ответ

Проблемы с использованием pdfminer

Я использую python 3.6 на Mac OS X.Я использую решение, опубликованное здесь для использования...

tigerninjaman / 22 ноября 2018

0 голосов

0 ответов

Python pdfminer.six удваивает или утраивает каждую строку в lt_obj.get_text ()

Я испытываю странное поведение с pdfminer.six.Я пытаюсь разобрать абзацы из договорных документов

Milipp / 21 ноября 2018

0 голосов

1 ответ

Python 3 и Ubuntu 16: я не могу установить pdfminer в Anaconda?

Я пытался установить pdfminer в Anaconda около получаса, и я вижу сообщение только в Терминале...

DanielTheRocketMan / 16 ноября 2018

0 голосов

0 ответов

Как получить размер шрифта текста с помощью PDF майнера по коду Python и не используя инструмент командной строки?

Есть ли способ использовать pdfminer для извлечения размера шрифта.Я не хочу использовать...

Abhishek Bisht / 15 ноября 2018

0 голосов

0 ответов

Python - pdf to txt только возврат (CID: номер)

У меня есть 5 pdf-файлов, которые я хочу преобразовать в txt-файлы. 3 из файлов работают нормально....

Mady / 11 ноября 2018

0 голосов

1 ответ

Pdf Miner возвращает странные буквы / символы

Я использую pdfminer с python 3 и получаю странные буквы в тексте, который восстанавливается из pdf

LBes / 18 октября 2018

0 голосов

0 ответов

после установки pdfminer.six инструмент командной строки pdf2txt.py не был установлен как / bin.есть идеи?

Я скачал pdfminer.six и ожидал получить инструмент командной строки pdf2txt.py как часть пакета.Но...

Andrew R. Calderon / 12 октября 2018

0 голосов

1 ответ

Очистка текста PDF с Python (pdfquery)

Мне нужно очистить некоторые PDF-файлы, чтобы извлечь следующую текстовую информацию: Я попытался...

Freya / 06 октября 2018

0 голосов

1 ответ

PDFMiner не анализирует более 1 страницы

Я использую PDFMiner6 с Python 3.5.Это намного лучше, чем PyPDF2 (медленнее, но точнее и не выдает...

Code Monkey / 30 сентября 2018

0 голосов

0 ответов

Обрезка файлов PDF не может обрезать текст для извлечения текста (textract и pdfminer)

Я использую библиотеку python PyPDF2, чтобы обрезать многие PDF-файлы, чтобы вырезать ненужную...

Ashley Liu / 30 сентября 2018

0 голосов

0 ответов

PyPDF2 для извлечения вертикального текста из отсканированного PDF

Я пытаюсь извлечь текст из отсканированного PDF с помощью PyPDF2.Некоторые из pdf содержат текст,...

Mms / 27 сентября 2018

0 голосов

0 ответов

Python pdfminer не показывает символы utf-8 должным образом

Я извлекаю текст на французском языке из PDF, используя pdfminer и python.Проблема в том, что я не...

tdsm2018 / 26 сентября 2018

0 голосов

1 ответ

Извлечение текста с каждой страницы PDF с помощью pdfminer.six

Документация для pdfminer в лучшем случае плохая.Сначала я использовал pdfminer, и он работал для...

Vindictive / 25 сентября 2018

0 голосов

1 ответ

Запись каждого элемента в списке в отдельный текстовый файл с автоматически назначаемым именем файла (python = 3.6)

Я использую textract для получения простого текста из файлов PDF.Для простого текста каждого файла...

Ashley Liu / 23 сентября 2018

0 голосов

1 ответ

Как использовать pdf2txt.py в pdfminer.six в скрипте Python и вне командной строки?

Я знаю, как использовать pdfminer.six pdf2txt.py в командной строке;Тем не менее, у меня есть много...

Ashley Liu / 20 сентября 2018

0 голосов

0 ответов

Как обрабатывать / декодировать значения PDF-форм, извлеченные с помощью pdfminer?

Я извлекаю пары имен и значений из некоторых PDF-форм, используя этот код: from pdfminer.pdfparser...

VeryStrange / 11 сентября 2018

0 голосов

0 ответов

Python: Как использовать PyPDF2 для расшифровки и pdfminer для извлечения текста?

Я пытаюсь извлечь текст с первой страницы защищенного PDF-файла. У меня нет пароля, но функция...

L Zh / 04 сентября 2018

0 голосов

0 ответов

Извлечение строковых данных из многостраничных столбцов PDF с помощью Python

У меня есть несколько PDF-файлов, которые организованы в столбцы, которые мне нужно почистить....

Tylerr / 02 сентября 2018

0 голосов

2 ответов

Преобразовать текстовый дамп двоичной строки в реальную строку

Библиотека Python выводит мне двоичные строки utf-8 с текстовым дампом, например: In [1]: string...

krvkir / 28 июня 2018

0 голосов

1 ответ

Как подавить анализ макета для PDFMiner в Python

PDFMiner.six застревает на некоторых файлах с разрешением изображения и текстом, поэтому я подумал,...

Shricharan Arumugam / 12 июня 2018

0 голосов

1 ответ

Что делать с CID в тексте, извлеченном PDFMiner?

У меня есть несколько PDF-файлов на хинди, которые содержат извлекаемый текст.Я использовал...

Mooncrater / 09 июня 2018