Удалить не алфавитно-цифровую, но сохранить пунктуацию - PullRequest
1 голос
/ 09 марта 2019

Я звоню API Gmail, чтобы получить заголовок писемНекоторые из названий содержат не алфавитно-цифровые символы, такие как эмодзи, знак «» и т. Д. (Пример: «\ u201cEthnographic»).В то же время мне нужно сохранить знаки препинания в конце слов: например, Hello!должен быть сохранен.Я видел много примеров кода о том, как избавиться от не алфавитно-цифровых, но не смог выполнить то, что я пытаюсь сделать.Любые отзывы приветствуются.

# Call the api and get the emails
M = json.dumps(message)

temp = message['messages'][0]['payload']

num_found = 0
# get the subject of the emails
for header in temp['headers']:
    # print(header['name'])
    if header['name'] == 'Subject':
        subject = header['value']
        break   

# S contains patterns like "\u201cEthnographic ..."
# or "u2b50\ufe0f best of .."
S = json.dumps(subject)

1 Ответ

1 голос
/ 09 марта 2019

Вы смотрели на пакет Emoji Python?

ref: документация пакета emoji

import emoji

def emoji_free(input):
  allchars = [str for str in input]
  emoji_list = [c for c in allchars if c in emoji.UNICODE_EMOJI]
  clean_text = ' '.join([str for str in input.split() if not any(i in str for i in emoji_list)])
  return clean_text

emoji_message = 'This is an emoji ? and the code is designed to remove ? emojis from a string.'

# remove the emojis from the message
clean_message = emoji_free(emoji_message)

print (clean_message)
# output
# This is an emoji and the code is designed to remove emojis from a string.

emoji_message = 'You are a bright \u2b50 with a smiling face \u263A'
print (emoji_message)
# output 
# You are a bright ⭐ with a smiling face ☺

clean_message = emoji_free(emoji_message)
print (clean_message)
# output 
# You are a bright with a smiling face

Вот еще один способ удалить строку в юникоде, связанную с эмодзи.

import re

emoji_pattern = re.compile("["
            u"\U0001F600-\U0001F64F"  # emoticons
            u"\U0001F300-\U0001F5FF"  # symbols & pictographs
            u"\U0001F680-\U0001F6FF"  # transport & map symbols
            u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
            u"\U00002702-\U000027B0"
            u"\U000024C2-\U0001F251"
            u"\U0001f926-\U0001f937"
            u'\U00010000-\U0010ffff'
            u"\u200d"
            u"\u2640-\u2642"
            u"\u2600-\u2B55"
            u"\u23cf"
            u"\u23e9"
            u"\u231a"
            u"\u3030"
            u"\ufe0f"
"]+", flags=re.UNICODE)

# message with star emoji in unicode
emoji_message = 'You are a bright \u2b50'

# print message with star emoji
print(emoji_message)
# output 
# You are a bright ⭐

# print message without star emoji
print(emoji_pattern.sub(r'', emoji_message)) 
# output 
# You are a bright
...