Question

Я пытаюсь извлечь огромное количество текста из некоторых файлов docx и сохранить их в файлах .txt.

язык, с которым я работаю, - фарси / арабский (они справа налево), поэтомумне трудно использовать Python-Docx.Я не могу извлечь текст в соответствующей форме, все они смешиваются в .txt файле.

извлеченная форма = https://pasteboard.co/Id8jj7g.jpg

оригинальная форма = https://pasteboard.co/Id8jv1i.jpg

import docx

doc = docx.Document('1.docx')
text_file = open('data.txt','w', encoding='utf8')


print(len(doc.paragraphs))

for txt in doc.paragraphs:
    text_file.write(txt.text+'\n')

Pouria Khanzadi · Answer 1 · 04 мая 2019

Я думаю, что сначала нужно определить соответствующую форму.если вы работаете над проектом НЛП, вам нужно иметь предложения и каждое слово в предложениях.Я думаю, что следующий код может быть полезен для извлечения текста из файла DOCX.(Python 2.7)

# library (using pip for installing the libraries)
import docxpy
import codecs

# read Input file : Input.docx
file = 'Input.docx'

# extract text from file 
text = docxpy.process(file)

# save the extracted text to a text file 
output_txt = codecs.open('Input.txt','w','utf-8')
output_txt.write(text)
output_txt.close()

для получения дополнительной информации прочитайте документацию по docxpy: веб-сайт docxpy

Как извлечь арабский / фарси (RTL) текст из файла DOCX в правильном порядке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь арабский / фарси (RTL) текст из файла DOCX в правильном порядке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы