У меня есть файл HTML, для которого я хочу преобразовать коды ISO-8859-1 в UTF-8.
иногда в файле появляется специальный символ в этом формате
Ȁ
ȃ
и иногда специальные символы появляются в этом формате
È
Ë
В обоих случаях я хотел бы заменить их на HTML, как показано ниже:
È
Ë
Я пытался с awk
сделать так:
awk '{gsub(/\200/, "\\È" , $0); print}' file
Но в этом случае заменяется только È
, но не его эквивалент Ȁ
.
Есть ли способ заменить эти символы в одной / прямой команде или необходимо рассмотреть оба пути? Я имею в виду, как сделать следующее для каждого символа?
awk '{ gsub(/\Ȁ/, "\\È" , $0)
gsub(/\200/, "\\È" , $0); print}' file
Если есть более эффективный способ сделать это или с помощью другого инструмента, я открыт для предложений. Заранее спасибо.