Я не уверен, какой язык вы используете, но подобные вещи происходят, когда есть несоответствие между кодировкой контента при вводе и кодировкой контента при чтении.
Итак, выВозможно, вы захотите указать, какая именно кодировка для чтения данных.Возможно, вам придется поиграть с фактической кодировкой, которую вам нужно использовать
string.getBytes("UTF-8")
string.getBytes("UTF-16")
string.getBytes("UTF-16LE")
string.getBytes("UTF-16BE")
etc...
Кроме того, проведите некоторое исследование системы, откуда поступают эти данные.Например, веб-сервисы из ASP.NET доставляют контент как UTF-16LE, но Java использует кодировку UTF-16BE.Когда эти две системы общаются друг с другом с расширенными символами, они могут не понимать друг друга совершенно одинаково.