Вопросы с тегом pdftotext

0 голосов

1 ответ

Почему этот код не может правильно извлекать текст Unicode из PDF-файлов?

Я хочу извлечь текст, содержащийся в PDF.Это мой код для этого: import textract doc = textract

Kristada673 / 05 июня 2018

0 голосов

0 ответов

Считайте pdf-файл в текстовый файл на python 3, но он генерирует ошибку, подобную AttributeError: объект 'PDFObjRef' не имеет атрибута 'decode'

Чтение pdf-файла для извлечения текста в python3 с использованием библиотеки pdfminer (я установил...

Jignesh / 23 мая 2018

0 голосов

0 ответов

Обработка PDF в облачных функциях Google: spawn pdftotext ENOENT

Я пытаюсь обработать свои PDF-файлы в облачных функциях Google.Но я думаю, что в нем отсутствует...

Jiew Meng / 19 мая 2018

0 голосов

0 ответов

pdftotext получить информацию о шрифте (семейство шрифтов, стиль, размер)

Я использую "pdftotext -bbox file.pdf" для преобразования файла pdf в HTML. Вот пример строки из...

James Kroning / 06 мая 2018

0 голосов

1 ответ

Как получить координаты символов / слов / строк / блоков

Я делаю pdftotext -bbox file.pdf, и это производит вывод на уровне слов. Есть ли способ вывести...

James Kroning / 06 мая 2018

0 голосов

1 ответ

Очистка PDF с использованием модуля textract

У меня есть приложение Node.js, которое должно выполнить некоторые операции по поиску в Интернете...

Miguel A. Friginal / 24 апреля 2018

0 голосов

3 ответов

Извлечь текстовую форму в формате PDF с помощью Foxit SDK

Я использую Foxit SDK для извлечения текста из документа PDF. Все хорошо, но когда я извлекаю pdf...

Tushar Agarwal / 27 января 2012

1 голос

1 ответ

Я хочу добавить строку в PDF-документ, используя Java

В настоящее время я использую PDFBox и читаю из файла .pdf, который находится в папке 1 Сначала я...

CRL88 / 31 августа 2011

1 голос

2 ответов

Solr Index PDF документы и опубликовать их на удаленном сервере

Привет, я наивный пользователь, когда дело доходит до Solr. Пожалуйста, объясните мне следующие...

Balaji.N.S / 26 июня 2011

2 голосов

1 ответ

PDFtotext - пробел, показанный как острый в командной строке

Я извлекаю текст с помощью python из текстового файла, созданного из pdf с использованием pdftotext

jobucks / 17 апреля 2011

2 голосов

1 ответ

Альтернативы pdftohtml

Я экспериментирую с pdftohtml, но обнаруживаю, что иногда возникают трудности с правильным анализом...

Sam Crawford / 01 апреля 2011

4 голосов

3 ответов

вызов pdftotext из скрипта Python не работает, когда я перехожу с локального компьютера на мой веб-хостинг

Я написал небольшой скрипт на python для разбора / извлечения информации из PDF. Я протестировал...

Chaitanya / 29 января 2011

7 голосов

2 ответов

Как сохранить текстовый файл в формате UTF-8, используя pdftotext

Я использую pdftotext с открытым исходным кодом для преобразования PDF в текстовые файлы. Как я...

Amar / 28 октября 2010

0 голосов

2 ответов

использование subprocess.popen в python с файлом os.tmp при передаче необязательных параметров

Я пишу программу на Python в Linux и частично использую исполняемый файл pdftotext для...

Chaitanya / 09 октября 2010

2 голосов

5 ответов

Методы парсинга больших файлов PDF

У меня есть очень большой PDF-файл (200 000 КБ или более), который содержит серию страниц,...

Anthony / 15 сентября 2010

0 голосов

1 ответ

обрабатывать данные изображения, такие как PDF или что-то еще, используя pdfcreator

сено все. Может быть, вы, ребята, можете помочь мне в моем проекте. Я использую pdfcreator в...

Guy / 07 сентября 2010

2 голосов

1 ответ

Ruby PDF: инструментарий с использованием pdftotext

Я конвертирую pdf файлы в своем проекте Ruby.Для этого я использую гем pd toolkit. В документации...

cswebgrl / 20 августа 2010

1 голос

1 ответ

pdftotext не может найти файлы для конвертации при вызове внутри скрипта Python

У меня есть скрипт на Python, который продолжает зависать: subprocess.call(["pdftotext",...

Tony Stark / 18 апреля 2010

2 голосов

2 ответов

Как извлечь текст используя Zend_Pdf со страницы pdf

Может кто-нибудь помочь с извлечением текста со страницы в формате PDF? <?php $pdf =...

Brant Messenger / 22 марта 2010

1 голос

1 ответ

подпроцесс ничего не выводит

Я пытаюсь использовать Python для запуска pdftotext, но по какой-то причине мой код не работает....

mlissner / 18 марта 2010