Как читать файлы с разными кодировками, используя Awk? - PullRequest
6 голосов
/ 30 ноября 2009

Как правильно читать файлы в кодировках, отличных от UTF8 в Awk?

У меня есть файл в кодировке иврит / Windows-1255. Простой {print $ 0} awk печатает такие вещи, как . как я могу заставить его читать правильно?

1 Ответ

9 голосов
/ 30 ноября 2009

У самого awk нет поддержки для обработки разных кодировок. Он будет соответствовать языку, указанному в среде, но лучше всего перекодировать ввод в правильную кодировку, прежде чем передать его в awk.

-f - это формат, из которого вы хотите конвертировать, -t - целевой формат, а -c пропускает любые недопустимые символы, которые преждевременно прекращают работу iconv. Конечно --help даст более подробную информацию.

iconv -c -f cp1255 -t utf8 somefile | awk ...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...