У меня есть несколько документов, которые были преобразованы из PDF в HTML. Из-за этого у них было много случайных знаков препинания в юникоде, где конвертер испортился (то есть, elipses и т. Д.). У них также правильно есть набор неанглийских, но все еще алфавитных символов, таких как é, и русских символов, и т.д ...
Есть ли способ создать регулярное выражение, которое будет соответствовать любому алфавитному символу Юникода (из алфавитов любого языка)? Или тот, который будет соответствовать только не алфавитным символам? Любой из них будет действительно полезным и удивительным. Я использую Perl, если это что-то изменит. Спасибо!