Я использую библиотеку JExcel для чтения электронных таблиц Excel. Каждая ячейка электронной таблицы может содержать строки локализации на любом из примерно 44 языков (английский, португальский, французский, китайский и т. Д.). Сегодня я ничего не говорю API относительно кодировки, которую он должен использовать. С китайцами все в порядке, но португальцы и немцы всегда облажаются. Каким-то образом кодировка по умолчанию (MacRoman на моем компьютере разработчика, UTF-8 на производстве) не может правильно интерпретировать строки, которые он извлекает из книги Excel. Должно быть что-то не так с тем, как JExcel интерпретирует кодировку символов файла.
Как говорится ...
Все ли строки в книге Excel закодированы с одинаковым набором символов?
Существуют ли метаданные книги, которые я могу спросить, что это за набор символов (я еще не нашел его)?
Если я пропущу все ячейки через что-то вроде jchardet (http://jchardet.sourceforge.net/),, вероятно, будет возможность угадать кодировку символов для всей книги (это в значительной степени основано на первом вопросе "да, все строки в данная книга закодирована с одинаковым набором символов ")?
Так много вопросов, так мало времени.