в какой кодировке находятся файлы после того, как нутч их вывалил? - PullRequest
0 голосов
/ 18 июня 2020

Я использовал функцию readseg для сброса данных после сканирования с помощью nutch. Но у меня проблемы с кодировкой. В какой кодировке файлы после сброса Nutch?

1 Ответ

2 голосов
/ 18 июня 2020

Содержимое HTML все еще в исходной кодировке. Начиная с Nutch 1.17, его можно дополнительно преобразовать в UTF-8, см. NUTCH-2773 . Вам необходимо установить свойство segment.reader.content.recode в значение true. Конечно, это не сработает для двоичных форматов документов.

Все остальные данные (метаданные, извлеченный простой текст) всегда кодируются в UTF-8 при сбросе сегментов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...