Я хочу перебрать гигабайты текста и заменить некоторые символы. Это очень тяжелый нормализатор текста с сотнями кандидатов на замену.
С python потребовались бы дни, чтобы выполнить задачу чтения файла строка за строкой и символ за символом и выполнить замены, используя словарь. Поэтому я с нетерпением жду Cython, чтобы ускорить задачу для меня, так как с C ++ я получаю ускорение в 60 и более раз.
Итак, у меня огромное количество Unicode строк:
strings = ['AAAABBACCDDDD', 'ACCBDBCCCCDA', 'ABCAD', 'ABCCCCCCCC']
и я хочу перебрать их символ за символом и выполнить некоторые перестановки:
A -> G
C -> G
D -> B
Список отображения имеет длину 1000+. Также имейте в виду, что строки в Unicode и содержат сотни уникальных нестандартных символов из разных языков.