Как извлечь все данные из нескольких таблиц во многих текстовых документах на python (извлечение данных непосредственно из MS Word)? - PullRequest
0 голосов
/ 07 октября 2018

Я попытался использовать приведенные ниже коды, но он может открыть только документ для печати текста ячейки.

Проблема в том, что у меня есть документы из 67 слов с похожими таблицами. Как извлечь все данные из таблиц в каждом документе из 67 слов?

В настоящее время приведенные ниже коды могут открывать только документ для извлечения текста ячейки во всех таблицах, однако я хотел бы открыть документы из нескольких слов в папке, используя приведенные ниже коды.Таким образом, есть ли способ открыть несколько слов документов, используя приведенные ниже коды?Пожалуйста, помогите взглянуть на приведенные ниже коды, спасибо !!!: ((

from docx import Documenthttps

wordDoc = Document(r"C:\Users\user\Documents\Lynn\FYPJ P3\FYP (Updated Ver)\FYP\dataprep\documents_sampling\860305644_Cat_5_Patient Care Record (Inpatient Nursing)_Admission.docx")
for table in wordDoc.tables:
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

1 Ответ

0 голосов
/ 07 октября 2018

Вы можете просто использовать это:

import os
from docx import Documenthttps

path = '\\some\\path\\to\\folder'
worddocs_list = []
for filename in os.listdir(path):
    wordDoc = Document(path+"\\"+filename)
    worddocs_list.append(wordDoc)

for wordDoc in worddocs_list:
    for table in wordDoc.tables:
        for row in table.rows:
            for cell in row.cells:
                print(cell.text)
...