Я анализирую документ HTML с парой модулей Perl: HTML :: TreeBuilder и HTML :: Element . По какой-то причине всякий раз, когда содержимое тега просто
, что и следовало ожидать, HTML :: Element возвращает его как странный символ, которого я никогда раньше не видел:
альтернативный текст http://www.freeimagehosting.net/uploads/2acca201ab.jpg
Я не могу скопировать символ, поэтому не могу найти его в Google, не могу найти его в карте символов, и, как ни странно, когда я ищу с помощью регулярного выражения, \w
находит его. Когда я конвертирую возвращенный документ в ANSI или UTF-8, он полностью исчезает. Я не смог найти никакой информации об этом в документации HTML :: Element.
Как я могу обнаружить и заменить этого персонажа чем-то более полезным, например null
, и как мне поступить со странными персонажами, подобными этому, в будущем?