Как получить rawContent в версии 1.14 при индексации - PullRequest
0 голосов
/ 02 мая 2018

Я пытаюсь написать свой собственный плагин index-html для Apache Nutch 1.14. Как я могу получить «rawContent» HTML в Nutch 1.14 с версией 2.3.1, мы можем получить его через WebPage, но с версией 1.14 мы получаем только текст.

1 Ответ

0 голосов
/ 02 мая 2018

Для Nutch 1.14 у вас уже должна быть опция -addBinaryContent в команде / задании индекса (см. https://github.com/apache/nutch/blob/release-1.14/src/java/org/apache/nutch/indexer/IndexingJob.java#L171).). Это означает, что с этим флагом вы можете отправлять необработанные байты в бэкэнд индексации. Также вы можете кодировать это как base64 с соответствующим флагом (полезно, если ваш индексный бэкэнд не имеет байтового типа).

...