Question

У меня довольно большой файл SQL, который начинается с маркера порядка следования байтов FFFE. Я разбил этот файл с помощью инструмента разбивки linux с поддержкой Unicode на 100 000 строк. Но при передаче их обратно в окна он не похож на любую из частей, кроме первой, поскольку только на нем есть маркер порядка следования байтов FFFE.

Как я могу добавить этот двухбайтовый код, используя echo (или любую другую команду bash)?

brillout · Answer 1 · 21 сентября 2012

На основе решения от Anonymous от sed sed -i '1s/^/\xef\xbb\xbf/' foo добавляет спецификацию в кодированный файл UTF-8 foo. Полезно то, что он также конвертирует файлы ASCII в UTF8 с BOM

yingted · Answer 2 · 22 марта 2012

Чтобы добавить спецификации ко всем файлам, начинающимся с "foo-", вы можете использовать sed. sed имеет возможность сделать резервную копию.

sed -i '1s/^\(\xff\xfe\)\?/\xff\xfe/' foo-*

strace в этом примере sed создает временный файл с именем, начинающимся с «sed». Если вы точно знаете, что спецификации уже нет, вы можете упростить команду:

sed -i '1s/^/\xff\xfe/' foo-*

Убедитесь, что вам нужно установить UTF-16, потому что то есть UTF-8 отличается.

andrewdotn · Answer 3 · 10 июля 2009

Для решения общего назначения - то, что устанавливает правильную метку порядка байтов независимо от того, является ли файл UTF-8, UTF-16 или UTF-32 - я бы использовал параметр 'bomb' vim:

$ echo 'hello' > foo
$ xxd < foo
0000000: 6865 6c6c 6f0a                           hello.
$ vim -e -s -c ':set bomb' -c ':wq' foo
$ xxd < foo
0000000: efbb bf68 656c 6c6f 0a                   ...hello.

(-e означает, что работает в режиме ex вместо визуального режима; -s означает, что не печатать сообщения о состоянии; -c означает «сделать это»)

Matthew Flaschen · Answer 4 · 25 июня 2009

Что-то вроде (сначала резервное копирование):

for i in $(ls *.sql)
do
  cp "$i" "$i.temp"
  printf '\xFF\xFE' > "$i"
  cat "$i.temp" >> "$i"
  rm "$i.temp"
done

Dennis Williamson · Answer 5 · 25 июня 2009

Ответ Мэтью Флэшена - хороший, однако у него есть пара недостатков.

Нет проверки, что копирование прошло успешно, прежде чем исходный файл будет обрезан. Было бы лучше сделать все зависящее от успешной копии, либо проверить наличие временного файла, либо работать с ним. копия. Если вы человек с поясом и подтяжками, вы бы сделали комбо, как я иллюстрировал ниже
ls не требуется.
Я бы использовал лучшее имя переменной, чем "i" - возможно, "file".

Конечно, вы можете быть очень параноиком и проверять наличие временного файла в начале, чтобы вы случайно не перезаписали его и / или не использовали UUID или сгенерированное имя файла. Один из mktemp, tempfile или uuidgen справится с задачей.

td=TMPDIR
export TMPDIR=

usertemp=~/temp            # set this to use a temp directory on the same filesystem
                           # you could use ./temp to ensure that it's one the same one
                           # you can use mktemp -d to create the dir instead of mkdir

if [[ ! -d $usertemp ]]    # if this user temp directory doesn't exist
then                       # then create it, unless you can't 
    mkdir $usertemp || export TMPDIR=$td    # if you can't create it and TMPDIR is/was
fi                                          # empty then mktemp automatically falls
                                            # back to /tmp

for file in *.sql
do
    # TMPDIR if set overrides the argument to -p
    temp=$(mktemp -p $usertemp) || { echo "$0: Unable to create temp file."; exit 1; }

    { printf '\xFF\xFE' > "$temp" &&
    cat "$file" >> "$temp"; } || { echo "$0: Write failed on $file"; exit 1; }

    { rm "$file" && 
    mv "$temp" "$file"; } || { echo "$0: Replacement failed for $file; exit 1; }
done
export TMPDIR=$td

Ловушки могут быть лучше, чем все отдельные обработчики ошибок, которые я добавил.

Без сомнения, все эти дополнительные предосторожности являются излишними для сценария с одним выстрелом, но эти методы могут спасти вас, когда наступает пуш, особенно в многофайловой операции.

sanmai · Answer 6 · 19 октября 2017

$ printf '\xEF\xBB\xBF' > bom.txt

Затем проверьте:

$ grep -rl $'\xEF\xBB\xBF' .
./bom.txt

Как я могу повторно добавить маркер порядка байтов Юникода в Linux?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу повторно добавить маркер порядка байтов Юникода в Linux?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов