Символы UTF-8 не отображаются должным образом - PullRequest
1 голос
/ 22 марта 2012

Я использую Nutch 1.4 и solr 3.3.0 для сканирования и индексации своего сайта на французском языке.Мой сайт раньше был в iso8859-1.

В настоящее время у меня есть 2 индекса под solr.В первой я храню свои старые страницы (в iso8859-1), а во второй я храню свои новые страницы (в utf-8).

Я использую одинаковые конфигурации Nutch для обеих заданий сканированиячтобы получить и проиндексировать старые и новые страницы на моем сайте.Я не добавил никаких настроек кодировок самостоятельно (я думаю).

Я сталкиваюсь с проблемой при поиске новых страниц, которые должны быть в utf-8.Французские символы не отображаются должным образом.Но для старых страниц, которые есть в iso8859-1, все вроде бы нормально.

Мне было интересно, кто-нибудь может указать мне правильное направление для решения этой проблемы.

Я полагаю, что проблема приходитс самого начала, так как, когда я создал дамп сегментов, я увидел этот забавный персонаж в файле дампа.

Спасибо.

Ответы [ 2 ]

3 голосов
/ 22 марта 2012

В nutch-default.xml значение "parser.character.encoding.default" должно быть установлено соответственно.Вы просто должны установить его в UTF-8.Значением по умолчанию является «windows-1252».

0 голосов
/ 22 марта 2012

Я не так хорошо знаком с Nutch, но я видел это с другими вещами.

Несколько вещей, которые вы должны проверить или сделать:

  1. Ваши новые страницы на веб-сервере могут не содержать информацию о том, что его UTF-8
  2. Ваша кодировкаМетатеги для новых страниц все еще могут быть iso8859-1

. Я рекомендую вам взять все старые страницы вашего старого сайта и использовать инструмент, такой как iconv, чтобы конвертировать их в UTF-8.Затем на вашем веб-сервере настройте его так, чтобы весь текст обрабатывался как UTF-8 (то есть отправленный обратно заголовок типа контента говорит UTF-8).

...