Команда readseg
выводит (по умолчанию) содержимое raw , полученное из URL-адресов. Это весь переданный контент HTML. Если вы хотите получить текстовый контент, вам нужно подождать, пока контент не будет проанализирован. Это означает, что вам нужно выполнить весь цикл сканирования (или команду ./bin/nutch parse
).
Проверьте различные параметры в команде readseg
(https://wiki.apache.org/nutch/bin/nutch_readseg),, если вы уже выполняете шаг синтаксического анализа, вы, вероятно, заботитесь только о проанализированном содержимом, поэтому можете избежать печати всего остального.