В настоящее время я работаю над приложением для проверки и анализа CSV-файлов.Файлы CSV должны быть закодированы в UTF-8, хотя иногда мы получаем файлы в ложной кодировке.CSV-файлы, скорее всего, содержат специальные символы немецкого алфавита (Ä, Ö, Ü, ß), так как большинство текстов в файле CSV написаны на немецком языке.
Для части валидатора, iнужно убедиться, что файл в кодировке UTF-8.Пока нет специальных символов, скорее всего, нет проблем с синтаксическим анализом.
До сих пор я пытался прочитать файл как байты и использовать некоторые библиотеки для обнаружения (или предположения) кодировки,Я попробовал большинство возможностей этого поста: http://fredeaker.blogspot.com/2007/01/character-encoding-detection.html
Но все библиотеки, которые я пробовал, не возвращали правильную кодировку, и поэтому я не мог разобрать специальные символы.
Теперьмой вопрос: есть ли способ определить для данной кодировки символов, такой как UTF-8, чтобы обнаружить символы, которые не закодированы правильно?Таким образом, в основном символы, которые отображаются в консоли (Eclipse) в виде вопросительных знаков.
Или есть какой-либо другой способ правильно определить кодировку символов?Мне просто нужно знать, UTF-8 или нет.
Спасибо всем заранее за помощь!:) 1014
С наилучшими пожеланиями, Роберт