HtmlUnit получает строку с неправильной кодировкой - PullRequest
0 голосов
/ 13 декабря 2018

Я использую HtmlUnit для выполнения некоторого Javascript в файле HTML.Дело в том, что Javascript может быть чем угодно, например, document.querySelector().

. При запуске от document.querySelector() до executeJavaScript() для получения строковых данных из HTML, он искажает кодировку.

Например: Interés становится Interés.

Есть ли умный способ преобразовать его, конфигурируя объекты HtmlUnit?

Некоторый код:

webClient = new WebClient(BrowserVersion.CHROME);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setAppletEnabled(false);
webClient.getOptions().setDownloadImages(false);

htmlPage = this.webClient.getPage("file:/" + htmlFile.getAbsolutePath());

ScriptResult scriptResult = htmlPage.executeJavaScript(someJavascriptFunction);

//This scriptResult.getJavaScriptResult() already has encoding issues

У меня естьпопытался установить webClient.addRequestHeader("Accept-Encoding", "utf-8");, но это не работает.

1 Ответ

0 голосов
/ 13 декабря 2018

Проблема здесь в источнике файла.Есть информация об используемой кодировке при чтении простого файла с диска.HtmlUnit обрабатывает этот случай так же, как если бы веб-сервер не предоставлял никакой информации о кодировке как часть ответа.В этих случаях HtmlUnit (как и настоящие браузеры) считывает байты файла, используя кодировку StandardCharsets.ISO_8859_1.

В качестве простого решения напишите свой файл в кодировке ISO_8859_1.

...