html2text работает для одного файла, но не работает для нескольких файлов - PullRequest
0 голосов
/ 19 мая 2019

У меня есть коллекция .html файлов, которые мне нужно преобразовать в текст. Источниками являются UTF8 (согласно заголовку html), а результатом должен быть также UTF8. Если я преобразую один файл с

html2text -utf8 chapter2.html > 2u.txt

результат задан правильно (правильно показаны немецкие умлауты).

Если я использую одну и ту же команду для группы файлов

html2text -utf8 chapter*.html > 3u.txt

Результат верен в одном случае (3 файла) и

file 3u.txt 

дает 3u.txt: UTF-8 Unicode text. Та же команда в более крупном каталоге (> 100 файлов, всего 400 тыс. Символов) создает файл с другой кодировкой

3u.txt: Non-ISO extended-ASCII text

Я использую html2text, версия 1.3.2a.

Есть ли объяснение этому поведению?

Я экспериментировал с преобразованием файлов по отдельности с помощью html2text, который работает правильно, и затем объединял файлы с cat. Я заметил, что результат вывода cat имеет неправильную кодировку файла. cat не сохраняет кодировку? (в моей локали $ LANG = en_US.utf8).

Буду признателен, если кто-нибудь поможет мне понять, что происходит, и подскажет, как объединить файлы!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...