У меня есть коллекция .html
файлов, которые мне нужно преобразовать в текст. Источниками являются UTF8 (согласно заголовку html), а результатом должен быть также UTF8. Если я преобразую один файл с
html2text -utf8 chapter2.html > 2u.txt
результат задан правильно (правильно показаны немецкие умлауты).
Если я использую одну и ту же команду для группы файлов
html2text -utf8 chapter*.html > 3u.txt
Результат верен в одном случае (3 файла) и
file 3u.txt
дает 3u.txt: UTF-8 Unicode text
. Та же команда в более крупном каталоге (> 100 файлов, всего 400 тыс. Символов) создает файл с другой кодировкой
3u.txt: Non-ISO extended-ASCII text
Я использую html2text, версия 1.3.2a.
Есть ли объяснение этому поведению?
Я экспериментировал с преобразованием файлов по отдельности с помощью html2text
, который работает правильно, и затем объединял файлы с cat
. Я заметил, что результат вывода cat
имеет неправильную кодировку файла. cat
не сохраняет кодировку? (в моей локали $ LANG = en_US.utf8).
Буду признателен, если кто-нибудь поможет мне понять, что происходит, и подскажет, как объединить файлы!