Как я могу повторно добавить маркер порядка байтов Юникода в Linux? - PullRequest
12 голосов
/ 25 июня 2009

У меня довольно большой файл SQL, который начинается с маркера порядка следования байтов FFFE. Я разбил этот файл с помощью инструмента разбивки linux с поддержкой Unicode на 100 000 строк. Но при передаче их обратно в окна он не похож на любую из частей, кроме первой, поскольку только на нем есть маркер порядка следования байтов FFFE.

Как я могу добавить этот двухбайтовый код, используя echo (или любую другую команду bash)?

Ответы [ 7 ]

15 голосов
/ 21 сентября 2012

На основе решения от Anonymous от sed sed -i '1s/^/\xef\xbb\xbf/' foo добавляет спецификацию в кодированный файл UTF-8 foo. Полезно то, что он также конвертирует файлы ASCII в UTF8 с BOM

11 голосов
/ 22 марта 2012

Чтобы добавить спецификации ко всем файлам, начинающимся с "foo-", вы можете использовать sed. sed имеет возможность сделать резервную копию.

sed -i '1s/^\(\xff\xfe\)\?/\xff\xfe/' foo-*

strace в этом примере sed создает временный файл с именем, начинающимся с «sed». Если вы точно знаете, что спецификации уже нет, вы можете упростить команду:

sed -i '1s/^/\xff\xfe/' foo-*

Убедитесь, что вам нужно установить UTF-16, потому что то есть UTF-8 отличается.

9 голосов
/ 10 июля 2009

Для решения общего назначения - то, что устанавливает правильную метку порядка байтов независимо от того, является ли файл UTF-8, UTF-16 или UTF-32 - я бы использовал параметр 'bomb' vim:

$ echo 'hello' > foo
$ xxd < foo
0000000: 6865 6c6c 6f0a                           hello.
$ vim -e -s -c ':set bomb' -c ':wq' foo
$ xxd < foo
0000000: efbb bf68 656c 6c6f 0a                   ...hello.

(-e означает, что работает в режиме ex вместо визуального режима; -s означает, что не печатать сообщения о состоянии; -c означает «сделать это»)

4 голосов
/ 25 июня 2009

Что-то вроде (сначала резервное копирование):

for i in $(ls *.sql)
do
  cp "$i" "$i.temp"
  printf '\xFF\xFE' > "$i"
  cat "$i.temp" >> "$i"
  rm "$i.temp"
done
3 голосов
/ 02 августа 2012

Попробуйте uconv

uconv --add-signature
2 голосов
/ 25 июня 2009

Ответ Мэтью Флэшена - хороший, однако у него есть пара недостатков.

  • Нет проверки, что копирование прошло успешно, прежде чем исходный файл будет обрезан. Было бы лучше сделать все зависящее от успешной копии, либо проверить наличие временного файла, либо работать с ним. копия. Если вы человек с поясом и подтяжками, вы бы сделали комбо, как я иллюстрировал ниже
  • ls не требуется.
  • Я бы использовал лучшее имя переменной, чем "i" - возможно, "file".

Конечно, вы можете быть очень параноиком и проверять наличие временного файла в начале, чтобы вы случайно не перезаписали его и / или не использовали UUID или сгенерированное имя файла. Один из mktemp, tempfile или uuidgen справится с задачей.

td=TMPDIR
export TMPDIR=

usertemp=~/temp            # set this to use a temp directory on the same filesystem
                           # you could use ./temp to ensure that it's one the same one
                           # you can use mktemp -d to create the dir instead of mkdir

if [[ ! -d $usertemp ]]    # if this user temp directory doesn't exist
then                       # then create it, unless you can't 
    mkdir $usertemp || export TMPDIR=$td    # if you can't create it and TMPDIR is/was
fi                                          # empty then mktemp automatically falls
                                            # back to /tmp

for file in *.sql
do
    # TMPDIR if set overrides the argument to -p
    temp=$(mktemp -p $usertemp) || { echo "$0: Unable to create temp file."; exit 1; }

    { printf '\xFF\xFE' > "$temp" &&
    cat "$file" >> "$temp"; } || { echo "$0: Write failed on $file"; exit 1; }

    { rm "$file" && 
    mv "$temp" "$file"; } || { echo "$0: Replacement failed for $file; exit 1; }
done
export TMPDIR=$td

Ловушки могут быть лучше, чем все отдельные обработчики ошибок, которые я добавил.

Без сомнения, все эти дополнительные предосторожности являются излишними для сценария с одним выстрелом, но эти методы могут спасти вас, когда наступает пуш, особенно в многофайловой операции.

1 голос
/ 19 октября 2017
$ printf '\xEF\xBB\xBF' > bom.txt

Затем проверьте:

$ grep -rl $'\xEF\xBB\xBF' .
./bom.txt
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...