Я занимаюсь интеллектуальным анализом контента, поступающего из Интернета.Есть много символов, которые я хочу преобразовать, чтобы выполнить лучшую классификацию (например:  
в пробелы).
Проблема в том, что иногда я получаю некоторые неизвестные символы и хочу обнаружитьКод Unicode и его представление в UTF-8.
Я хочу знать, есть ли какой-нибудь онлайн-инструмент, который может сообщить об этом или программе.
В данный момент,Я пытаюсь найти найденный мной перенос строки , но он не совпадает с \n
или \s
из регулярного выражения.В прошлом у меня были проблемы с.
Я не знаю, что есть, и я хочу знать, есть ли способ обнаружить.
Символ появляется здесь, после персонажей , но можно увидеть только просмотр исходного кода без форматирования.
"personagens
"