Apache Nutch 1.x ошибка crawldb впрыска - PullRequest
0 голосов
/ 04 июня 2018

Попробовал поискать проблему, но не смог найти ничего полезного.

После учебника в https://wiki.apache.org/nutch/NutchTutorial

Проверенный орех с мусорным ведром / орехом, и все в порядке

Устанавливаем java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

и включаем в экспорт пути экспорта

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

Обратите внимание на использование окон, следовательно, также используйте cygwin64.

Добавлены URL-адреса каталогов и добавлены файлыseed.txt с одним URL

Ран

bin/nutch inject crawl/crawldb urls/seed.txt

и затем получает следующую ошибку:

Инжектор: crawlDb: crawl / crawldb Инжектор: urlDir:urls / seed.txt Injector: Преобразование введенных URL-адресов для сканирования записей в БД.Инжектор: java.io.IOException: файл блокировки crawl / crawldb / .locked уже существует.

1 Ответ

0 голосов
/ 04 июня 2018

Сообщение об ошибке совершенно ясно: другое задание Nutch удерживает блокировку CrawlDb соответственно.он упал или был убит до того, как файл блокировки был удален после успешного выполнения задания.Удаление файла блокировки crawl/crawldb/.locked должно решить проблему.Но также полезно заглянуть в файлы журналов (особенно hadoop.log), чтобы выяснить причину, по которой файл блокировки не был удален.

...