Question

Я пытаюсь смонтировать регулярное выражение, в котором есть несколько слов в файле, где все буквы этого слова совпадают с шаблоном слов.

Моя проблема в том, что регулярное выражение не может найти акцентированные слова, но в моем текстовом файле много акцентированных слов.

Моя командная строка:

cat input/words.txt | grep '^[éra]\{1,4\}$' > output/words_era.txt
cat input/words.txt | grep '^[carroça]\{1,7\}$' > output/words_carroca.txt

И содержимое файла:

carroça
éra
éssa
roça
roco
rato
onça
orça
roca

Как я могу это исправить?

ephemient · Answer 1 · 19 января 2011

Если ваш файл закодирован в ISO-8859-1, но системная локаль UTF-8, это не будет работать.

Либо конвертируйте файл в UTF-8, либо измените системную локаль на ISO8859-1.

# convert from ISO-8859-1 to the environmental locale before grepping
# output will be in the current locale
$ iconv -f 8859_1 input/words.txt | grep ...

# run grep with an ISO-8859-1 locale
# output will be in ISO-8859-1 encoding
$ cat input/words.txt | env LC_ALL=en_US grep ...

tchrist · Answer 2 · 20 января 2011

Предполагая, что все в UTF-8, я обычно просто использую что-то вроде

perl -CSAD -le 'print if /^carroça{1,3}$/' filenames

потому что тогда я знаю, что он делает.

dule · Answer 3 · 19 января 2011

Я нашел связанный вопрос здесь , который, кажется, работает.

Так что, если вы попробуете что-то вроде:

cat input/words.txt | LANG=C grep '^[éra]\{1,4\}$' > output/words_era.txt

Это производит то, что вы ожидаете?

UncleZeiv · Answer 4 · 19 января 2011

Попробуйте, как сказал @dule, но с LANG=en_US.iso88591:

cat input/words.txt | LANG=en_US.iso88591 grep '^[éra]\{1,4\}$' > output/words_era.txt

grep / regex не может найти акцентированное слово

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

grep / regex не может найти акцентированное слово

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы