Можете ли вы вытащить данные из PDF с отступами в таблицу - PullRequest
0 голосов
/ 11 июня 2019

Мне нужно организовать коды ICD-10 "icd10cm_tabular_2019", которые приведены в https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs.html (таблицы кодов и индекс 2018 [ZIP, 20MB])

Моя цель - поместить их в таблицу со следующими 4 столбцами: Код, категория, подкатегория, подкласс, заметки. Например, код: A00.1

Код - Категория - Подкатегория - Подкласс - Примечания

A00.1 - Кишечная инфекция_Болезнь - Холера - Cholera_due_to_Vibrio_cholerae - Классическая холера

PDF-файл из cms представляет эти данные в определенном, но непригодном для использования формате. Все отступы. Есть идеи, как решить эту проблему? Спасибо всем

PDF в текст, чтобы преуспеть, просто помещает каждую строку в один столбец

1 Ответ

0 голосов
/ 27 июня 2019

Вам не обязательно делать PDF в текст, а затем в Excel. Вы можете использовать инструмент для преобразования PDF непосредственно в Excel. Например, если вы должны использовать Python:

import pdftables_api

c = pdftables_api.Client('my-api-key')
c.xlsx('input.pdf', 'output.xlsx')

Вам необходимо сгенерировать ключ API. Дополнительная информация: https://pdftables.com/pdf-to-excel-api

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...