Я пытаюсь перебрать все таблицы в документе и извлечь из них текст. В качестве промежуточного шага я просто пытаюсь распечатать текст на консоли.
Я смотрел на другой код, предоставленный scanny в похожих постах, но по какой-то причине он не дает мне ожидаемого результата из документа, который я анализирую через
Документ можно найти по адресу https://www.ontario.ca/laws/regulation/140300
from docx import Document
from docx.enum.text import WD_COLOR_INDEX
import os, re, sys
document = Document("path/to/doc")
tables = document.tables
for table in tables:
for row in table.rows:
for cell in row.cells:
for paragraph in cell.paragraphs:
print(paragraph.text)
Я ожидаю, что это распечатает весь текст, но вместо этого я ничего не получу. если я пытаюсь напечатать (row.cells), он просто печатает (). это пустой список, я думаю. В моем документе определенно есть текст в ячейках. Не уверен, что здесь не так.
Любая помощь приветствуется,