Похоже, ваша программа пытается прочитать ваш текстовый файл в кодировке CP1252 вместо UTF-8. Укажите юникод при открытии, как показано ниже. Кроме того, поскольку это текстовый файл, который вы можете читать, используя 'r'
вместо 'rb'
.
with open(localPath, 'r', encoding='utf8') as infile
Что касается вашего регулярного выражения, если вы просто хотите удалить числа, вы можете использовать
data = re.sub(r'[0-9]+', '', data)
Вам не нужно указывать весь алфавит араби c как символы, которые нужно сохранить. Но похоже, что у вас есть строки типа «(1/6)». Чтобы избавиться от скобок и косых черт, используйте:
data = re.sub(r'[0-9\(\)/]+', '', data)