как оптимизировать список слов для английского языка - PullRequest
2 голосов
/ 01 июля 2010

Я ищу, чтобы оптимизировать список слов для английского языка, используя sed или аналогичное приложение linux. Для этого мне нужно:

Удалить строки, содержащие все, кроме az, 0-9,или специальные символы

Удаление URL-адресов - возможно, обнаружение символа \ "*"

Удаление строк длиной более 16 символов и длиной не более 4 символов.(5-16 символов)

Желательно в sed =)

Спасибо!

Ответы [ 3 ]

0 голосов
/ 01 июля 2010

На основе Anon.:

egrep '^[a-zA-Z0-9{other allowed characters here}]{4,16}$'
0 голосов
/ 01 июля 2010
sed -nr '/^[[:alnum:]]{5,16}$/p' words
  • -n означает, что по умолчанию строки не печатаются
  • -r означает использование «расширенных» регулярных выражений

Команда sed:

  • /.../ когда у нас есть что-то, что соответствует
    • ^...$ целая строка, состоящая только из
      • [...] класс персонажей:
        • [:alnum:] буквенно-цифровые символы
      • {5,16} от 5 до 16 раз
  • p тогда мы печатаем это
0 голосов
/ 01 июля 2010
perl -ne "print if /^[a-zA-Z0-9{other allowed characters here}]{4,16}$/"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...