Как извлечь арабский / фарси (RTL) текст из файла DOCX в правильном порядке - PullRequest
0 голосов
/ 04 мая 2019

Я пытаюсь извлечь огромное количество текста из некоторых файлов docx и сохранить их в файлах .txt.

язык, с которым я работаю, - фарси / арабский (они справа налево), поэтомумне трудно использовать Python-Docx.Я не могу извлечь текст в соответствующей форме, все они смешиваются в .txt файле.

извлеченная форма = https://pasteboard.co/Id8jj7g.jpg

оригинальная форма = https://pasteboard.co/Id8jv1i.jpg

import docx

doc = docx.Document('1.docx')
text_file = open('data.txt','w', encoding='utf8')


print(len(doc.paragraphs))

for txt in doc.paragraphs:
    text_file.write(txt.text+'\n')

1 Ответ

1 голос
/ 04 мая 2019

Я думаю, что сначала нужно определить соответствующую форму.если вы работаете над проектом НЛП, вам нужно иметь предложения и каждое слово в предложениях.Я думаю, что следующий код может быть полезен для извлечения текста из файла DOCX.(Python 2.7)

# library (using pip for installing the libraries)
import docxpy
import codecs

# read Input file : Input.docx
file = 'Input.docx'

# extract text from file 
text = docxpy.process(file)

# save the extracted text to a text file 
output_txt = codecs.open('Input.txt','w','utf-8')
output_txt.write(text)
output_txt.close() 

для получения дополнительной информации прочитайте документацию по docxpy: веб-сайт docxpy

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...