В настоящее время у меня есть:
[re.sub(r'\W', '', i) for i in training_data.loc[:, 'Text']]
Однако при этом символы хинди остаются и все пробелы удаляются.Есть идеи?
Отрицание может помочь
import re import string re.sub(f'[^{string.printable}]', '', 'asdf #$שדגכ')