Какой самый быстрый способ перебрать строку Unicode и заменить символы в Cython? - PullRequest
0 голосов
/ 18 марта 2020

Я хочу перебрать гигабайты текста и заменить некоторые символы. Это очень тяжелый нормализатор текста с сотнями кандидатов на замену.

С python потребовались бы дни, чтобы выполнить задачу чтения файла строка за строкой и символ за символом и выполнить замены, используя словарь. Поэтому я с нетерпением жду Cython, чтобы ускорить задачу для меня, так как с C ++ я получаю ускорение в 60 и более раз.

Итак, у меня огромное количество Unicode строк:

strings = ['AAAABBACCDDDD', 'ACCBDBCCCCDA', 'ABCAD', 'ABCCCCCCCC']

и я хочу перебрать их символ за символом и выполнить некоторые перестановки:

A -> G
C -> G
D -> B

Список отображения имеет длину 1000+. Также имейте в виду, что строки в Unicode и содержат сотни уникальных нестандартных символов из разных языков.

...