Содержимое HTML все еще в исходной кодировке. Начиная с Nutch 1.17, его можно дополнительно преобразовать в UTF-8, см. NUTCH-2773 . Вам необходимо установить свойство segment.reader.content.recode
в значение true. Конечно, это не сработает для двоичных форматов документов.
Все остальные данные (метаданные, извлеченный простой текст) всегда кодируются в UTF-8 при сбросе сегментов.