Удалите символы, не входящие в ASCII, кроме знаков смайликов и товарных знаков - PullRequest
0 голосов
/ 21 октября 2019

Мне нужна помощь с шаблоном регулярных выражений в Пандах. У меня есть колонка с неанглийскими словами и некоторыми эмоциями и знаками, такими как товарный знак и знаки авторского права, такие как «Docs To Go ™ Free Office Suite».

Я хочу только удалить неанглийские строки и сохранить значки смайликов и товарных знаков. Я использую шаблон r'[^\x00-\x7F\3]+', но он удаляет все неанглийские, смайлики и знаки товарных знаков.

pattern = r'[^\x00-\x7F\3]+'
filter_to_remove_non_ascii = max_reviews_df['App'].str.contains(pattern)
...