Question

Я использовал функцию readseg для сброса данных после сканирования с помощью nutch. Но у меня проблемы с кодировкой. В какой кодировке файлы после сброса Nutch?

Sebastian Nagel · Answer 1 · 18 июня 2020

Содержимое HTML все еще в исходной кодировке. Начиная с Nutch 1.17, его можно дополнительно преобразовать в UTF-8, см. NUTCH-2773 . Вам необходимо установить свойство segment.reader.content.recode в значение true. Конечно, это не сработает для двоичных форматов документов.

Все остальные данные (метаданные, извлеченный простой текст) всегда кодируются в UTF-8 при сбросе сегментов.

в какой кодировке находятся файлы после того, как нутч их вывалил?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

в какой кодировке находятся файлы после того, как нутч их вывалил?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы