PDF в Pandas фрейм данных - PullRequest
       8

PDF в Pandas фрейм данных

0 голосов
/ 20 июня 2020

Как раз тогда, когда я думаю, что наконец-то понял, такая новинка.

Я пытаюсь получить список чисел из столбца таблицы, которая является PDF. step Я хотел преобразовать в Panda DF.

pip install tabula-py
pip install PyPDF2

import pandas as pd
import tabula
df = tabula.read_pdf('/content/Manifest.pdf')

Однако я получаю список из 1, а не DF. Когда я смотрю на DF, информация там есть, я просто понятия не имею, как получить к нему доступ, поскольку это список из 1.

Так что не уверен, почему я не получил DF, и не знаю, что я хотел с ним делать. список из 1. Вывод

Не уверен, имеет ли это значение, но я использую Google Colab.

Любая помощь будет потрясающей.

Спасибо

1 Ответ

1 голос
/ 20 июня 2020

tabula.read_pdf возвращает список фреймов данных без каких-либо дополнительных аргументов. Чтобы получить доступ к указанному вами c фрейму данных, вы можете выбрать индекс и использовать его.

Вот пример, где я прочитал документ, выбрал самый первый индекс и сравнил типы

import tabula

df = tabula.read_pdf(
    "https://github.com/chezou/tabula-py/raw/master/tests/resources/data.pdf")

df_0 = df[0]

print("type of df :", type(df))
print("type of df_0", type(df_0))

Возврат:

type of df : <class 'list'>
type of df_0 <class 'pandas.core.frame.DataFrame'>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...