python-docx: проанализировать таблицу в Panda Dataframe - PullRequest
0 голосов
/ 06 октября 2019

Я использую библиотеку python-docx для извлечения документа MS Word. Я могу получить все таблицы из документа word, используя одну и ту же библиотеку. Тем не менее, я хотел бы проанализировать таблицу в фрейме данных panda, есть ли какие-либо встроенные функции, которые я могу использовать для анализа таблицы в фрейме данных, или мне придется делать это вручную? Кроме того, есть ли возможность узнать название заголовка, в котором находится таблица? Спасибо

from docx import Document
from docx.shared import Inches
document = Document('test.docx')

tabs = document.tables

1 Ответ

1 голос
/ 11 октября 2019

Вы можете извлечь таблицы из документа во фрейме данных, используя этот код:

from docx import Document
import pandas as pd
document = Document('test.docx')

tables = []
for table in document.tables:
    df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
    for i, row in enumerate(table.rows):
        for j, cell in enumerate(row.cells):
            if text:
                df[i][j] = text
    tables.append(pd.DataFrame(df))

Вы можете получить все таблицы из переменной таблиц.

...