Я думаю, что сначала нужно определить соответствующую форму.если вы работаете над проектом НЛП, вам нужно иметь предложения и каждое слово в предложениях.Я думаю, что следующий код может быть полезен для извлечения текста из файла DOCX.(Python 2.7)
# library (using pip for installing the libraries)
import docxpy
import codecs
# read Input file : Input.docx
file = 'Input.docx'
# extract text from file
text = docxpy.process(file)
# save the extracted text to a text file
output_txt = codecs.open('Input.txt','w','utf-8')
output_txt.write(text)
output_txt.close()
для получения дополнительной информации прочитайте документацию по docxpy: веб-сайт docxpy