Question

У меня есть электронная таблица (.xls) с номерами автомобильных номеров в кодировке windows-1252, НО первоначально эти цифры вводились кириллицей в кодировке UTF-8.Что я имею в виду: т. Е. У992НВ в кириллице - это то же самое, что и Y992HB в латинском (есть разница между первыми буквами). Итак, я беру эти цифры и преобразую их

 if (cell.getCellType() == CellType.STRING) {
                    String cellValue = cell.getStringCellValue();
                    try {
                        byte[] b = cellValue.getBytes("windows-1252");
                        String cellValue2 = new String(b, StandardCharsets.UTF_8);
                        cell.setCellValue(cellValue2);
                    }
                    catch ( UnsupportedEncodingException ex) {

                    }

Но вывод неправильный.Входные данные в windows-1252 - « Ð ¢ 313ÐÐ777 », а выходные данные - Т313�К777, поскольку средний знак не читается.Что я делаю неправильно?

Rostislav Aleev · Answer 1 · 19 октября 2018

Байт Java не является байтом.Таким образом, побайтовое декодирование не сработало.
Я проанализировал символы dex и попытался декодировать их путем сопоставления значений с UTF8.Некоторые значения были эквивалентны только UTF-8 latin-1.Я нашел пакет для Python, чтобы декодировать сломанный UTF-8.Оно работает.НО: Это не работает с Jython 2.7, потому что сопровождающий отказался от поддержки Python 2.7

Спасибо за вашу помощь.

Java CP1252 для UTF8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java CP1252 для UTF8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы