Как я могу просто преобразовать MHTML-файл в HTML-файл - PullRequest
0 голосов
/ 09 января 2019

Я пытаюсь получить простые данные из HTML-файлов, используя красивый суп 4. Но у меня есть проблема, когда я сталкиваюсь с файлом mthml. Парсер html не работает в файле mhtml. Итак, мне нужно конвертировать MHTML-файлы в простой HTML-файл. Или загрузите файл mhtml другими способами, bcuz, основная цель - просто извлечь одни данные.

Кто-нибудь может помочь с помощью Python? (я уже знаю, что могу легко конвертировать это с помощью MS Word ... но я хочу сделать это с помощью программирования на Python автоматически)

1 Ответ

0 голосов
/ 15 марта 2019

На github есть репозиторий с именем MHTifier , который стоит посмотреть. Код написан на Python2, он читабелен и хорошо прокомментирован. Хотя эта работа еще не завершена, но все же может стать хорошей отправной точкой.

...