Удалить 2-байтовое пустое пространство в Perl - PullRequest
0 голосов
/ 29 июня 2018

У меня есть текстовый документ, преобразованный из PDF, который содержит пробелы, которые я не могу найти и заменить. Мне удалось вывести его значение ord () и получить 194, а length () для символа вернуло 2 (поэтому я предполагаю, что это 2 байта). Как я могу удалить этот персонаж в Perl? Благодарю.

1 Ответ

0 голосов
/ 29 июня 2018

Первый символ 194 10 = C2 16 = Â

Видя, что это не пробел и видя, что C2 16 обычно находится в начале многобайтовых последовательностей UTF-8, кажется, что вы забыли декодировать текст. Это первое, что вам нужно сделать.

Тогда вы, вероятно, обнаружите, что у вас U + 00A0 NO BREAK SPACE. Вы можете удалить его с помощью

s/\xA0//
...