Создание регулярного выражения, которое может отфильтровывать только слова из любой заданной строки - PullRequest
0 голосов
/ 01 октября 2019

Привет программистам всего мира, я хотел бы спросить, есть ли способ создать идеальный токенизатор, который может обнаруживать только английские слова в любой заданной строке? Например, если у вас есть эта строка "JGS (8/8/01 17:20:19 PM); нам нужно включить; отключить и навести значки для следующих действий :; CopyToClipboardActionDelegate; RelaunchActionDelegate; TerminateAndRemoveActionDelegate; DW; *"1002 * тогда ожидаемый результат должен быть: нам, нужно, включено, отключено, зависание, значки, для, следующих, действий, Копировать, В, Буфер обмена, Действие, Делегировать, Перезапустить, Действие, Делегировать, Завершить,И, Удалить, Действие, Делегировать и так далее ... . Интересно, возможно ли такое вообще?

Я пробовал word_tokenize, а также пытался найти в строке скороговорки с подстроками из регулярных выражений, но пока не могу получить нужный мне результат.

Это то, что я имею, чтобы получить результат сверху. PS Я знаю, что этот метод токенизации не может достичь того, что я ищу, я просто не знаю, как делать регулярные выражения: (

def tokenization(series):
    list = [];
    s = series.to_numpy();
    for series in s:
        tokens = word_tokenize(series);
        list.append(tokens);
    return list;

Я тоже пробовал это и потерпел неудачу

def tokenization(series):
    list = [];
    s = series.to_numpy();
    for series in s:
        tokens = re.findall('^[a-zA-Z]*$', series);
        list.append(tokens);
    return list;

Результат, который я получаю: 'JGS', '(', '8/8/01', '5:20:19', 'PM', ')', ';', 'Мы ',' нужно ',' включено ','; ',' отключено ',' & ',' hover ',' icons ',' for ',' the ',' follow ',' actions ',': ', ';', 'CopyToClipboardActionDelegate', ';', 'RelaunchActionDelegate', ';', 'TerminateAndRemoveActionDelegate', ';', ';', 'DW', '(', '9/24/2001', '2:22:48 ',' PM ',') ','; ',' Use ',' the ',' standard ',' copy ',' icon ',' for ',' copy ',' to ', 'clipboard', '(', 'desktop', 'вероятно', 'выставляет', 'it', ')', '.', ';', ';', 'DW', '(', '24.09.2001 ',' 2:23:05 ',' PM ',') ','; ',' Made ',' questions ',' for ','; ',' Relaunch ','; ', 'Завершить', 'Все', ';', 'Завершить', '&', 'Удалить' и, как указано выше, это должно быть почти таким же, как и при использовании токенизации, но должны быть только слованастоящее. Так что, если у кого-то естьидеи вся помощь будет оценена.

...