Я пытаюсь использовать java.util.Scanner, чтобы взять содержимое Википедии и использовать его для поиска по словам.
Дело в том, что все нормально, но при чтении некоторых слов это выдает ошибки.
Глядя на код и делая некоторые проверки, оказалось, что с некоторыми словами кажется
не распознавать кодировку или около того, и контент больше не читается.
Это код, используемый для перехода на страницу:
// -Start-
try {
connection = new URL("http://it.wikipedia.org
wiki/"+word).openConnection();
Scanner scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
// if(word.equals("pubblico"))
// System.out.println(content);
System.out.println("Doing: "+ word);
//End
Проблема возникает со словами «pubblico» для итальянской википедии.
результат println для слова pubblico выглядит следующим образом (вырезано):
ï¿ï¿½] KSR> � ~ E
�1A���E�ER3tHZ�4v�� & PZjtc�¿½ï¿½D�7_ | ���� = 8��Ø}
Ты хоть представляешь, почему? Все же посмотрел на исходный код страницы и заголовки одинаковые, с одинаковой кодировкой ...
Оказалось, что контент распакован, так что я могу сказать Википедии не посылать мне свои страницы в архиве, или это единственный способ? спасибо