Question

Я пытаюсь использовать java.util.Scanner, чтобы взять содержимое Википедии и использовать его для поиска по словам. Дело в том, что все нормально, но при чтении некоторых слов это выдает ошибки. Глядя на код и делая некоторые проверки, оказалось, что с некоторыми словами кажется не распознавать кодировку или около того, и контент больше не читается. Это код, используемый для перехода на страницу:

// -Start-

try {
        connection =  new URL("http://it.wikipedia.org
wiki/"+word).openConnection();
                    Scanner scanner = new Scanner(connection.getInputStream());
        scanner.useDelimiter("\\Z");
        content = scanner.next();
//          if(word.equals("pubblico"))
//              System.out.println(content);
        System.out.println("Doing: "+ word);
//End

Проблема возникает со словами «pubblico» для итальянской википедии. результат println для слова pubblico выглядит следующим образом (вырезано): ï¿ï¿½] KSR> ï¿½ ~ E ï¿½1Aï¿½ï¿½ï¿½Eï¿½ER3tHZï¿½4vï¿½ï¿½ & PZjtcï¿½¿½ï¿½Dï¿½7_ | ï¿½ï¿½ï¿½ï¿½ = 8ï¿½ï¿½Ø}

Ты хоть представляешь, почему? Все же посмотрел на исходный код страницы и заголовки одинаковые, с одинаковой кодировкой ...

Оказалось, что контент распакован, так что я могу сказать Википедии не посылать мне свои страницы в архиве, или это единственный способ? спасибо

parkerfath · Answer 1 · 12 февраля 2009

Попробуйте использовать сканер с указанным набором символов:

public Scanner(InputStream source, String charsetName)

Для конструктора по умолчанию:

Байты из потока преобразуются в символы с использованием кодировки по умолчанию базовой платформы.

Сканер на java.sun.com

erickson · Answer 2 · 12 февраля 2009

Вам необходимо использовать URLConnection, чтобы вы могли определить заголовок типа содержимого в ответе. Это должно сказать вам кодировку, которую вы будете использовать, когда вы создаете Scanner.

В частности, посмотрите на параметр "charset" заголовка типа контента.

Чтобы запретить сжатие gzip, установите заголовок accept-encoding в значение «identity». См. спецификацию HTTP для получения дополнительной информации.

David Z · Answer 3 · 12 февраля 2009

Попробуйте использовать Reader вместо InputStream - я думаю, что это работает примерно так:

connection =  new URL("http://it.wikipedia.org/wiki/"+word).openConnection();
String ctype = connection.getContentType();
int csi = ctype.indexOf("charset=");
Scanner scanner;
if (csi > 0)
    scanner = new Scanner(new InputStreamReader(connection.getInputStream(), ctype.substring(csi + 8)));
else
    scanner = new Scanner(new InputStreamReader(connection.getInputStream()));
scanner.useDelimiter("\\Z");
content = scanner.next();
if(word.equals("pubblico"))
    System.out.println(content);
System.out.println("Doing: "+ word);

Вы также можете просто передать кодировку конструктору сканера, как указано в другом ответе.

Miguel A. Friginal · Answer 4 · 13 февраля 2009

connection =  new URL("http://it.wikipedia.org/wiki/"+word).openConnection();
//connection.addRequestProperty("Accept-Encoding","");
//System.out.println(connection.getContentEncoding());

InputStream resultingInputStream = null;       // Stream su cui fluisce la pagina scaricata
String encoding = connection.getContentEncoding();    // Codifica di invio (identity, gzip, inflate)
// Scelta dell'opportuno decompressore per leggere la sorgente
if (connection.getContentEncoding() != null && encoding.equals("gzip")) {
    resultingInputStream = new GZIPInputStream(connection.getInputStream());
}
else if (encoding != null && encoding.equals("deflate")) {
    resultingInputStream = new InflaterInputStream(connection.getInputStream(), new Inflater(true));
}
else {
    resultingInputStream = connection.getInputStream();
}

// Scanner per estrarre dallo stream la pagina per inserirla in una stringa
Scanner scanner = new Scanner(resultingInputStream);
scanner.useDelimiter("\\Z");
content = new String(scanner.next());

Так работает !!!

Miguel A. Friginal · Answer 5 · 12 февраля 2009

connection =  new URL("http://it.wikipedia.org/wiki/"+word).openConnection();
            connection.addRequestProperty("Accept-Encoding","");
            System.out.println(connection.getContentEncoding());
            Scanner scanner = new Scanner(new InputStreamReader(connection.getInputStream()));
            scanner.useDelimiter("\\Z");
            content = new String(scanner.next());

кодировка не меняется. почему?

java.util.Scanner и Wikipedia

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

java.util.Scanner и Wikipedia

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы