Я использую PyMuPDF
пакет и python3.7
для чтения персидского pdf.
Задача :
При чтении каждой строки на странице, если есть английское слово, добавляется дополнительный \n
после слова.как это:
سلام привет.==== >>>> سلام \ nhello \ n. \ N.
Код :
import fitz
doc = fitz.Document(input)
page_count = doc.pageCount
for i in range(page_count):
load_page = doc.loadPage(i)
page = load_page.getText() # read a page
page = str(page)
line_list.append(page.strip())
print(line_list)
Как удалить \n
?