Если HTML-файл уже не находится на вашем диске, urlopen()
будет корректно обрабатывать все форматы строк (\n
, \r\n
и \r
) в HTML-файле, который вы хотите проанализировать (то есть он преобразуетих в \n
), в соответствии с urllib docs :
"Если URL не имеет идентификатора схемы или если он имеет файл: в качестве идентификатора схемы,это открывает локальный файл (без универсальных символов новой строки) "
Например,
>>> from urllib import urlopen
>>> urlopen("http://****.com/win_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'
>>> urlopen("http://****.com/unix_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'