Applescript: очистка строки - PullRequest
2 голосов
/ 06 мая 2010

У меня есть строка с недопустимыми символами, которые я хочу удалить, но я не знаю, какие типы символов могут присутствовать.

Я создал список символов, которые я не хочу фильтровать, и создал этот скрипт (из другого, который я нашел в Интернете).

on clean_string(TheString)
    --Store the current TIDs. To be polite to other scripts.
    set previousDelimiter to AppleScript's text item delimiters
    set potentialName to TheString
    set legalName to {}
    set legalCharacters to {"a", "b", "c", "d", "e", "f", 
"g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r",
"s", "t", "u", "v", "w", "x", "y", "z", "A", "B", "C", "D", "E",
 "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R",
 "S", "T", "U", "V", "W", "X", "Y", "Z", "1", "2", "3", "4", "5",
 "6", "7", "8", "9", "0", "?", "+", "-", "Ç", "ç", "á", "Á", "é",
 "É", "í", "Í", "ó", "Ó", "ú", "Ú", "â", "Â", "ã", "Ã", "ñ", "Ñ",
 "õ", "Õ", "à", "À", "è", "È", "ü", "Ü", "ö", "Ö", "!", "$", "%",
 "/", "(", ")", "&", "€", "#", "@", "=", "*", "+", "-", ",", ".",
 "–", "_", " ", ":", ";", ASCII character 10, ASCII character 13}

    --Whatever you want to eliminate.
    --Now iterate through the characters checking them.
    repeat with thisCharacter in the characters of potentialName
        set thisCharacter to thisCharacter as text
        if thisCharacter is in legalCharacters then
            set the end of legalName to thisCharacter
            log (legalName as string)

        end if
    end repeat
    --Make sure that you set the TIDs before making the
    --list of characters into a string.
    set AppleScript's text item delimiters to ""
    --Check the name's length.
    if length of legalName is greater than 32 then
        set legalName to items 1 thru 32 of legalName as text
    else
        set legalName to legalName as text
    end if
    --Restore the current TIDs. To be polite to other scripts.
    set AppleScript's text item delimiters to previousDelimiter
    return legalName
end clean_string

Проблема в том, что этот скрипт медлителен до чертиков и дает мне тайм-аут.

Что я делаю, так это проверяю символ за символом и сравниваю со списком legalCharacters. Если персонаж там, это нормально. Если нет, игнорируйте.

Есть ли быстрый способ сделать это?

что-то вроде

«посмотреть на все символы TheString и удалить те, которые не включены в legalCharacters»

спасибо за любую помощь.

Ответы [ 4 ]

3 голосов
/ 07 мая 2010

С какими не-ascii персонажами вы сталкиваетесь? Какая у вас кодировка файла?

Гораздо эффективнее использовать сценарий оболочки и tr, sed или perl для обработки текста. Все языки установлены по умолчанию в OS X.

Вы можете использовать сценарий оболочки с tr (как в примере ниже) для удаления возвращаемых данных, а также можно использовать sed для удаления пробелов (не в примере ниже):

set clean_text to do shell script "echo " & quoted form of the_string & "| tr -d '\\r\\n' "

Техническое примечание TN2065: сделать сценарий оболочки в AppleScript

Или, с помощью perl, это удалит непечатаемые символы:

set x to quoted form of "Sample text. smdm#$%%&"
set y to do shell script "echo " & x & " | perl -pe 's/[^[:alnum:]|[:space:]]//g'"

Поиск в SO других примеров использования tr, sed и perl для обработки текста с помощью Applescript. Или поиск MacScripter / AppleScript | Форум

2 голосов
/ 07 мая 2010

Другой метод сценария оболочки может быть:

set clean_text to do shell script "echo " & quoted form of the_string & "|sed \"s/[^[:alnum:][:space:]]//g\""

, который использует sed для удаления всего, что не является буквенно-цифровым символом или пробелом. Дополнительная ссылка на регулярное выражение здесь

2 голосов
/ 07 мая 2010

Итерации в Applescript всегда медленны, и на самом деле не существует более быстрого решения этих проблем. Вход в циклы - абсолютно гарантированный способ замедлить работу. Используйте команду log разумно.

Однако в вашем конкретном случае у вас есть ограничение длины, и перемещение проверки длины в цикл повторения может значительно сократить время обработки (чуть меньше секунды, чтобы запустить Script Debugger независимо от длины текста) :

    on clean_string(TheString)
     set potentialName to TheString
     set legalName to {}
     set legalCharacters to {"a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "1", "2", "3", "4", "5", "6", "7", "8", "9", "0", "?", "+", "-", "Ç", "ç", "á", "Á", "é", "É", "í", "Í", "ó", "Ó", "ú", "Ú", "â", "Â", "ã", "Ã", "ñ", "Ñ", "õ", "Õ", "à", "À", "è", "È", "ü", "Ü", "ö", "Ö", "!", "$", "%", "/", "(", ")", "&", "€", "#", "@", "=", "*", "+", "-", ",", ".", "–", "_", " ", ":", ";", ASCII character 10, ASCII character 13}
 with timeout of 86400 seconds --86400 seconds = 24 hours

     repeat with thisCharacter in the characters of potentialName
      set thisCharacter to thisCharacter as text
      if thisCharacter is in legalCharacters then
       set the end of legalName to thisCharacter
       if length of legalName is greater than 32 then
        return legalName as text
       end if
      end if
     end repeat
 end timeout
     return legalName as text
    end clean_string
0 голосов
/ 06 января 2012

BBEdit или TextWrangler будут намного, намного быстрее в этом. Загрузите TextWrangler (это бесплатно), затем откройте ваш файл и запустите Text -> Zap Gremlins ... на нем. Это делает то, что вам нужно? Если это так, празднуйте с холодным напитком. Если нет, попробуйте BBEdit (это не бесплатно) и создайте новую текстовую фабрику с таким количеством условий «Заменить все», как вам нужно, затем откройте файл и запустите на нем текстовую фабрику.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...