Question

Я использую curl для получения какого-либо URL-ответа, это ответ JSON, и он содержит экранированные юникодом национальные символы, такие как \u0144 (ń) и \u00f3 (ó).

Как я могу преобразовать их в UTF-8 или любую другую кодировку для сохранения в файл?

Kevin · Answer 1 · 10 января 2012

Может быть немного уродливо, но echo -e должен это сделать:

echo -en "$(curl $URL)"

-e интерпретирует escape-символы, -n подавляет перевод новой строки echo обычно добавляет.

Примечание: экранирование \u работает во встроенном в bash echo, но не /usr/bin/echo.

Как указано в комментариях, это bash 4.2+, а в 4.2.x есть обработка ошибок0x00ff / 17 значений (0x80-0xff).

Krzysztof Wolny · Answer 2 · 15 января 2012

Я нашел native2ascii из JDK как лучший способ сделать это:

native2ascii -encoding UTF-8 -reverse src.txt dest.txt

Подробное описание здесь: http://docs.oracle.com/javase/1.5.0/docs/tooldocs/windows/native2ascii.html

Обновление: Больше не доступнос JDK9: https://bugs.openjdk.java.net/browse/JDK-8074431

raphaelh · Answer 3 · 04 февраля 2015

Я не знаю, какой дистрибутив вы используете, но uni2ascii должен быть включен.

$ sudo apt-get install uni2ascii

Это зависит только от libc6, поэтому это легковесное решение (uni2ascii i386 4.18-2 - это 55,0 КБ в Ubuntu)!

Затем использовать его:

$ echo 'Character 1: \u0144, Character 2: \u00f3' | ascii2uni -a U -q
Character 1: ń, Character 2: ó

Keith Thompson · Answer 4 · 10 января 2012

Предполагая, что за \u всегда следуют ровно 4 шестнадцатеричных цифры:

#!/usr/bin/perl

use strict;
use warnings;

binmode(STDOUT, ':utf8');

while (<>) {
    s/\\u([0-9a-fA-F]{4})/chr(hex($1))/eg;
    print;
}

binmode переводит стандартный вывод в режим UTF-8.Команда s... заменяет каждое вхождение \u, за которым следуют 4 шестнадцатеричных цифры соответствующим символом.Суффикс e заставляет замену оцениваться как выражение, а не как строку;g говорит о замене всех вхождений, а не только первого.

Вы можете сохранить вышеупомянутое в файл где-нибудь в вашем $PATH (не забывайте chmod +x).Он фильтрует стандартный ввод (или один или несколько файлов, названных в командной строке) на стандартный вывод.

Опять же, это предполагает, что представление всегда \u, за которым следуют ровно 4 шестнадцатеричных цифры.Существует больше символов Unicode, чем можно представить таким образом, но я предполагаю, что \u12345 будет обозначать символ Unicode 0x1234 (ETHIOPIC SYLLABLE SEE), за которым следует цифра 5.

в синтаксисе C, имя-универсального символа - это либо \u, за которым следуют ровно 4 шестнадцатеричные цифры, либо \U, за которыми следуют ровно 8 шестнадцатеричных цифр.Я не знаю, используют ли ваши ответы JSON ту же схему.Вы, вероятно, должны выяснить, как (или действительно ли) он кодирует символы Юникода вне базовой многоязычной плоскости (первые 2 ¹⁶ символов).

Thanatos · Answer 5 · 12 января 2012

Не полагайтесь на регулярные выражения: в JSON есть несколько странных угловых случаев с \u выходами и кодовыми точками, отличными от BMP.(в частности, JSON будет кодировать одну кодовую точку, используя two \u escape). Если вы предполагаете, что 1 escape-последовательность переводится в 1 кодовую точку, вы обречены на такой текст.

Использованиеполный JSON-анализатор на выбранном вами языке значительно более надежен:

$ echo '["foo bar \u0144\n"]' | python -c 'import json, sys; sys.stdout.write(json.load(sys.stdin)[0].encode("utf-8"))'

Это просто подача данных в этот короткий скрипт на python:

import json
import sys

data = json.load(sys.stdin)
data = data[0] # change this to find your string in the JSON
sys.stdout.write(data.encode('utf-8'))

Из которого вы можете сохранитькак foo.py и как curl ... | foo.py

Примером, который сломает большинство других попыток в этом вопросе, является "\ud83d\udca3":

% printf '"\\ud83d\\udca3"' | python2 -c 'import json, sys; sys.stdout.write(json.load(sys.stdin)[0].encode("utf-8"))'; echo
?
# echo will result in corrupt output:
% echo -e $(printf '"\\ud83d\\udca3"') 
"������"
# native2ascii won't even try (this is correct for its intended use case, however, just not ours):
% printf '"\\ud83d\\udca3"' | native2ascii -encoding utf-8 -reverse
"\ud83d\udca3"

andrej · Answer 6 · 19 ноября 2012

используйте /usr/bin/printf "\u0160ini\u010di Ho\u0161i - A\u017e sa skon\u010d\u00ed zima" для получения правильного преобразования unicode-to-utf8.

Smit Johnth · Answer 7 · 18 декабря 2018

теперь у меня лучший ответ!Используйте jq

Windows:

type in.json | jq > out.json

Lunix:

cat in.json | jq > out.json

Это, безусловно, быстрее, чем любой ответ с использованием perl / python.Без параметров он форматирует JSON и конвертирует \ uXXXX в utf8.Он также может быть использован для выполнения запросов JSON.Очень хороший инструмент!

Kay Marquardt · Answer 8 · 13 апреля 2019

Предисловие: Ни один из продвинутых ответов на этот вопрос не решил давнюю проблему в telegram-bot-bash.Только Python-решение из Thanatos сработало!

Это потому, что JSON кодирует одну кодовую точку, используя два выхода \ u *

Здесь вы найдете два замены для echo -e и printf '%s'

PURE вариант bash в качестве функции,вставьте верхнюю часть вашего сценария и используйте его для декодирования строк JSON в bash:

#!/bin/bash
#
# pure bash implementaion, done by KayM (@gnadelwartz)
# see https://stackoverflow.com/a/55666449/9381171
  JsonDecode() {
     local out="$1"
     local remain=""   
     local regexp='(.*)\\u[dD]([0-9a-fA-F]{3})\\u[dD]([0-9a-fA-F]{3})(.*)'
     while [[ "${out}" =~ $regexp ]] ; do
           # match 2 \udxxx hex values, calculate new U, then split and replace
           local W1="$(( ( 0xd${BASH_REMATCH[2]} & 0x3ff) <<10 ))"
           local W2="$(( 0xd${BASH_REMATCH[3]} & 0x3ff ))"
           U="$(( ( W1 | W2 ) + 0x10000 ))"
           remain="$(printf '\\U%8.8x' "${U}")${BASH_REMATCH[4]}${remain}"
           out="${BASH_REMATCH[1]}"
     done
     echo -e "${out}${remain}"
  }

# Some tests ===============
$ JsonDecode 'xxx \ud83d\udc25 xxxx' -> xxx ? xxxx
$ JsonDecode '\ud83d\udc25' -> ?
$ JsonDecode '\u00e4 \u00e0 \u00f6 \u00f4 \u00fc \u00fb \ud83d\ude03 \ud83d\ude1a \ud83d\ude01 \ud83d\ude02 \ud83d\udc7c \ud83d\ude49 \ud83d\udc4e \ud83d\ude45 \ud83d\udc5d \ud83d\udc28 \ud83d\udc25 \ud83d\udc33 \ud83c\udf0f \ud83c\udf89 \ud83d\udcfb \ud83d\udd0a \ud83d\udcec \u2615 \ud83c\udf51'
ä à ö ô ü û ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ☕ ?

# decode 100x string with 25 JSON UTF-16 vaules
$ time for x in $(seq 1 100); do JsonDecode '\u00e4 \u00e0 \u00f6 \u00f4 \u00fc \u00fb \ud83d\ude03 \ud83d\ude1a \ud83d\ude01 \ud83d\ude02 \ud83d\udc7c \ud83d\ude49 \ud83d\udc4e \ud83d\ude45 \ud83d\udc5d \ud83d\udc28 \ud83d\udc25 \ud83d\udc33 \ud83c\udf0f \ud83c\udf89 \ud83d\udcfb \ud83d\udd0a \ud83d\udcec \u2615 \ud83c\udf51' >/dev/null ; done

real    0m2,195s
user    0m1,635s
sys     0m0,647s

MIXED решение с вариантом Phyton от Thanatos:

# usage: JsonDecode "your bash string containing \uXXXX extracted from JSON"
 JsonDecode() {
     # wrap string in "", replace " by \"
     printf '"%s\\n"' "${1//\"/\\\"}" |\
     python -c 'import json, sys; sys.stdout.write(json.load(sys.stdin).encode("utf-8"))'
 }

-

Будет работать тестовый набор для тех, кто защищает другие продвигаемые решения:

# test='? ? ❤️ ? ?' from JSON
$ export test='\uD83D\uDE01 \uD83D\uDE18 \u2764\uFE0F \uD83D\uDE0A \uD83D\uDC4D'

$ printf '"%s\\n"' "${test}" | python -c 'import json, sys; sys.stdout.write(json.load(sys.stdin).encode("utf-8"))' >phyton.txt
$ echo -e "$test" >echo.txt

$ cat -v phyton.txt
M-pM-^_M-^XM-^A M-pM-^_M-^XM-^X M-bM-^]M-$M-oM-8M-^O M-pM-^_M-^XM-^J M-pM-^_M-^QM-^M

$ cat -v echo.txt
M-mM- M-=M-mM-8M-^A M-mM- M-=M-mM-8M-^X M-bM-^]M-$M-oM-8M-^O M-mM- M-=M-mM-8M-^J M-mM- M-=M-mM-1M-^M

Как вы можете легко увидеть, результат будет другим.другие продвинутые решения предоставляют тот же неверный вывод для строк JSON, что и echo -e:

$ ascii2uni -a U -q >uni2ascii.txt <<EOF
$test
EOF

$ cat -v uni2ascii.txt
M-mM- M-=M-mM-8M-^A M-mM- M-=M-mM-8M-^X M-bM-^]M-$M-oM-8M-^O M-mM- M-=M-mM-8M-^J M-mM- M-=M-mM-1M-^M

$ printf "$test\n" >printf.txt
$ cat -v printf.txt
M-mM- M-=M-mM-8M-^A M-mM- M-=M-mM-8M-^X M-bM-^]M-$M-oM-8M-^O M-mM- M-=M-mM-8M-^J M-mM- M-=M-mM-1M-^M

$ echo "$test" | iconv -f Unicode >iconf.txt                                                                                     

$ cat -v iconf.txt
M-gM-^UM-^\M-cM-!M-^DM-dM-^PM-3M-gM-^UM-^\M-dM-^UM-^DM-cM-^DM-0M-eM-0M- M-dM-^QM-5M-cM-^LM-8M-eM-1M-^DM-dM-^QM-5M-cM-^EM-^EM-bM-^@M-8M-gM-^UM-^\M-cM-^\M-2M-cM-^PM-6M-gM-^UM-^\M-dM-^UM-^FM-dM-^XM-0M-eM-0M- M-dM-^QM-5M-cM-^LM-8M-eM-1M-^DM-dM-^QM-5M-cM-^AM-^EM-bM-^AM-^AM-gM-^UM-^\M-cM-!M-^DM-dM-^PM-3M-gM-^UM-^\M-dM-^MM-^DM-dM-^PM-4r

Robin A. Meade · Answer 9 · 03 февраля 2019

Используйте спецификатор преобразования b, предписанный POSIX:

Дополнительный символ спецификатора преобразования b должен поддерживаться следующим образом.Аргумент должен быть принят за строку, которая может содержать последовательности с обратной косой чертой.
- http://pubs.opengroup.org/onlinepubs/9699919799/utilities/printf.html

expand_escape_sequences() {
  printf %b "$1"
}

Тест:

s='\u0160ini\u010di Ho\u0161i - A\u017e sa skon\u010d\u00ed zima A percent sign % OK?'
expand_escape_sequences "$s"

# output: Šiniči Hoši - Až sa skončí zima A percent sign % OK?

ПРИМЕЧАНИЕ. ЕслиЕсли вы удалите спецификатор формата %b, знак процента вызовет ошибку, такую как:

-bash: printf: `O': invalid format character

Успешно протестировано с помощью встроенных команд bash printf и /usr/bin/printf в моем дистрибутиве Linux (Fedora 29).

ОБНОВЛЕНИЕ 2019-04-17 : Мое решение предполагало, что Юникод экранируется как \uxxxx и \Uxxxxxxxx;последний требуется для символов Юникода за пределами BMP.Однако вопрос ОП касался потока JSON.В escape-последовательностях Юникода JSON используется UTF16, для которого требуются суррогатные пары за пределами BMP.

Рассмотрим символ юникода ? ( 'УХОД ЗА ЛИЦОМ С УЛЫБАЮЩИМИ ГЛАЗАМИ (U + 1F601) ).Экранирующая последовательность \U для этого символа: \U0001F601.Вы можете распечатать его с помощью обязательного спецификатора POSIX %b, например:

printf %b '\U0001F601'
# Prints ? as expected

Однако в JSON escape-последовательность для этого символа включает суррогатную пару UTF16: \uD83D\uDE01

Дляманипулируя потоками JSON на уровне оболочки, инструмент jq превосходен:

echo '["\uD83D\uDE01"]' | jq .
# Prints ["?"] as expected

Таким образом, теперь я снимаю свой ответ с рассмотрения и одобряю ответ Смита Джонта об использовании jq в качестве лучшего ответа.

Как конвертировать \ uXXXX unicode в UTF-8 с помощью консольных инструментов в * nix

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как конвертировать \ uXXXX unicode в UTF-8 с помощью консольных инструментов в * nix

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы