Regex для поиска и замены смайликов в openrefine - PullRequest
1 голос
/ 30 октября 2019

Я работаю над файлом, который содержит большое количество данных, включая также смайлики. Я использую openrefine для очистки данных, но я не могу найти кратчайший путь для удаления общих смайликов, таких как смайлики, которые часто включаются в данные. Я попробовал какое-то регулярное выражение, и это сработало для нескольких смайликов, но некоторые все еще остаются. ниже приведен код, который я пытался найти и заменить

"[\p{C}]|[\p{So}]|[\u20E3]"

Ответы [ 2 ]

1 голос
/ 01 ноября 2019

Не могли бы вы попробовать этот код, используя Jython / Python вместо Grel?

import re

def remove_emojis(data):
    emoj = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002500-\U00002BEF"  # chinese char
        u"\U00002702-\U000027B0"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642" 
        u"\u2600-\u2B55"
        u"\u200d"
        u"\u23cf"
        u"\u23e9"
        u"\u231a"
        u"\ufe0f"  # dingbats
        u"\u3030"
                      "]+", re.UNICODE)
    return re.sub(emoj, '', data)

return remove_emojis(value)

Снимок экрана

enter image description here

Источник

1 голос
/ 30 октября 2019

Создание регулярного выражения для соответствия всем смайликам Unicode нетривиально, но есть репозиторий Github со сценарием для его построения на основе стандарта Unicode (а также выходных данных этого сценария), доступных здесь:

https://github.com/mathiasbynens/emoji-regex

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...