Question

В качестве упражнения я пытаюсь вывести, сколько слов существует в словаре для каждой возможной длины. Вот мой код:

$ awk '{print length}' dico.txt | sort -nr | uniq -c

Вот вывод:

Моя проблема в том, что длина awk рассчитывает еще одну букву для каждого слова в моем файле. Правильный вывод должен был быть:

Я проверил свой файл, и после слова:

он не содержит пробелов.

ABAISSA
ABAISSABLE
ABAISSABLES
ABAISSAI
...

Так что я думаю, что awk считает символ новой строки символом, несмотря на то, что это не предполагается. Есть ли решение? Или я что-то не так делаю?

Ondrej K. · Answer 1 · 26 июня 2018

Я рискну догадаться. Разве ваш awk не ожидает перевода строки в стиле "U * X" (LF), но ваш dico.txt имеет стиль Windows (CR + LF). Это легко даст вам +1 на всех длинах.

Я взял твои четыре слова:

$ cat dico.txt 
ABAISSA
ABAISSABLE
ABAISSABLES
ABAISSAI

И провел свою линию:

$ awk '{print length}' dico.txt | sort -nr | uniq -c
      1 11
      1 10
      1 8
      1 7

Пока все хорошо. Теперь то же самое, но dico.txt с символами новой строки Windows:

$ cat dico.txt  | todos > dico_win.txt 
$ awk '{print length}' dico_win.txt | sort -nr | uniq -c
      1 12
      1 11
      1 9
      1 8

длина awk считается +1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

длина awk считается +1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов