html to text: переместить все после табуляции в новую строку - PullRequest
0 голосов
/ 27 апреля 2018

Я использую Beautifulsoup для преобразования HTML в текст. Все после 1 вкладки перемещается на новую строку, и я не уверен, почему?

Например:

5 ноября

2008

как

5 ноября 2008 г.

сохранено.

Код:

soup=BeautifulSoup(download_target.text, 'html.parser')

f_text=soup.get_text()

text_file = open(file_loc+"\\"+url_rename[2]+"\\"+url_rename[3]+"\\"+url_rename[1]+".txt","w")

text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r"))

Это мой первый пост. Извините, я не уверен, как правильно отформатировать мои сообщения.

Любая идея, как поставить «2008» на первую строчку, будет высоко ценится.

Ashish:

Это то, что вы имели в виду:

text_file.write(str(f_text.encode('ascii', errors='ignore')).replace("\\t", "").replace("\\n", "\n\r").join(f_text.splitlines()))

Если это так, я получаю ошибку. Может быть, я неправильно понимаю ваш код?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...