Я использую Nutch 1.4 и solr 3.3.0 для сканирования и индексации своего сайта на французском языке.Мой сайт раньше был в iso8859-1.
В настоящее время у меня есть 2 индекса под solr.В первой я храню свои старые страницы (в iso8859-1), а во второй я храню свои новые страницы (в utf-8).
Я использую одинаковые конфигурации Nutch для обеих заданий сканированиячтобы получить и проиндексировать старые и новые страницы на моем сайте.Я не добавил никаких настроек кодировок самостоятельно (я думаю).
Я сталкиваюсь с проблемой при поиске новых страниц, которые должны быть в utf-8.Французские символы не отображаются должным образом.Но для старых страниц, которые есть в iso8859-1, все вроде бы нормально.
Мне было интересно, кто-нибудь может указать мне правильное направление для решения этой проблемы.
Я полагаю, что проблема приходитс самого начала, так как, когда я создал дамп сегментов, я увидел этот забавный персонаж в файле дампа.
Спасибо.