Я пытаюсь использовать кипятильник Java-библиотеку для извлечения новостных статей из набора веб-сайтов.Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, слов с символами ударения (História), эти специальные символы не извлекаются правильно.Я думаю, что это проблема кодирования.
В faq на шаблоне написано «Если вы извлекаете текст не на английском языке, вам может потребоваться изменить некоторые параметры», а затем ссылается на бумагу .Я не нашел решения в этой статье.
Мой вопрос: есть ли какие-либо параметры при использовании патрубка, где я могу указать кодировку?Есть ли способ обойти и правильно получить текст?
Как я использую библиотеку: (первая попытка на основе URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(вторая на HTLMисходный код)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);