Вопросы с тегом PDF-соскоб

0 голосов

1 ответ

Camelot-py не обнаруживает две строки текста в одной строке

Logan McNulty / 12 марта 2020

0 голосов

1 ответ

Как извлечь данные из нескольких PDF-файлов в одном каталоге, используя python -camelot?

Ahmad B / 11 марта 2020

0 голосов

0 ответов

Мне нужно собрать данные из 100 документов Microsoft Word и создать таблицу в файле CSV

У меня есть сотни документов Microsoft Word. Каждый документ имеет одинаковые заголовки. Мне нужно...

Learning_quick / 02 октября 2019

0 голосов

2 ответов

Можно ли анализатору данных PDF читать файлы PowerPoint PDF?

В настоящее время я разрабатываю собственный анализатор PDF, который может читать документы...

Mashiyath Haque / 10 июля 2019

0 голосов

0 ответов

pdftools - шрифт Helvetica (?) искажает импорт текста

Я изо всех сил пытаюсь правильно прочитать PDF-файлы, содержащие шрифт Helvetica с пакетом pdftools

zoowalk / 11 апреля 2019

0 голосов

2 ответов

Пакет Tabulizer в R: как скрести таблицы после определенного заголовка

Как очистить таблицы, перед которыми стоит какой-то текст заголовка из PDF?Я экспериментирую с...

Jacek Kotowski / 28 января 2019

0 голосов

1 ответ

Извлечение / очистка PDF с Textract - Не печатать текст

Я пытаюсь извлечь текст из PDF-файлов, используя Textract. Однако, когда я печатаю текст в конце...

Rasmus Engelbrecht Sørensen / 15 января 2019

0 голосов

1 ответ

Как я могу использовать регулярное выражение в моем коде pdfminer для извлечения текста между двумя заголовками?

У меня есть несколько PDF-файлов, из которых я хочу извлечь данные. Мне удалось использовать...

Jlingz14 / 07 января 2019

0 голосов

0 ответов

Как получить размер шрифта текста с помощью PDF майнера по коду Python и не используя инструмент командной строки?

Есть ли способ использовать pdfminer для извлечения размера шрифта.Я не хочу использовать...

Abhishek Bisht / 15 ноября 2018

0 голосов

1 ответ

Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью camelot

Я использую camelot для извлечения данных таблицы, однако заголовок не извлекается как часть PDF....

Abhishek Bisht / 08 ноября 2018

0 голосов

0 ответов

Идентификация таблиц с линиями сетки в PDF с использованием Python с Tabula

Я пытаюсь извлечь все таблицы, содержащиеся в документе PDF (около 250 страниц).Проблема не в...

Mehul Verma / 28 сентября 2018

0 голосов

0 ответов

Извлечение текста из раздела PDF с сохранением строк в одну строку

У меня есть несколько файлов PDF, и мне нужно извлечь из них некоторую информацию.«Раздел» имеет...

Wolgan Ens / 16 сентября 2018

0 голосов

1 ответ

Есть ли простой способ найти определенный текст в PDF, выделить его и распечатать или сохранить в новый файл?

Итак, я надеюсь автоматизировать процесс определения местоположения рабочих мест на карте...

Vvega / 02 сентября 2018

0 голосов

0 ответов

pdftotext получить информацию о шрифте (семейство шрифтов, стиль, размер)

Я использую "pdftotext -bbox file.pdf" для преобразования файла pdf в HTML. Вот пример строки из...

James Kroning / 06 мая 2018

0 голосов

1 ответ

Как получить координаты символов / слов / строк / блоков

Я делаю pdftotext -bbox file.pdf, и это производит вывод на уровне слов. Есть ли способ вывести...

James Kroning / 06 мая 2018

0 голосов

1 ответ

Очистка PDF с использованием модуля textract

У меня есть приложение Node.js, которое должно выполнить некоторые операции по поиску в Интернете...

Miguel A. Friginal / 24 апреля 2018

27 голосов

8 ответов

Как я могу конвертировать PDF в HTML?

Какие есть хорошие библиотеки на любом языке для преобразования PDF в HTML?

user178644 / 28 октября 2009

0 голосов

4 ответов

оптическое распознавание символов PDF-файлов парламентских дебатов

Для работы по контракту мне нужно оцифровать много старых PDF-файлов протоколов дебатов с...

Cetin Sert / 09 июля 2009