Я хотел бы извлечь текст из документа docx, я придумала скрипт для извлечения текста из документа docx, но я заметила, что в некоторых документах есть таблица, и скрипт не работает с ними. Как я могу улучшить приведенный выше скрипт:
import glob
import os
import docx
with open('your_file.txt', 'w') as f:
for directory in glob.glob('fi*'):
for filename in glob.glob(os.path.join(directory, "*")):
if filename.endswith((".docx", ".doc")):
document = docx.Document(filename)
for paragraph in document.paragraphs:
if paragraph.text:
#docText.append(paragraph.text)
f.write("%s\n" % paragraph.text)
документ с таблицей