У меня проблемы с интеграцией Nutch 1.x и ELS 2.3.3 . Я уже установил localhost для моего elk: 9200 compose, поэтому, когда я "свернулся", выдает мне аутентификацию. Но при индексации содержимого для обхода в ELS задание обычно не выполняется. В моем Compose локальный хост - это "лось".
Мой сайт-орех. xml:
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</$
<description>
</description>
</property>
<!-- Elasticsearch properties -->
<property>
<name>elastic.host</name>
<value>elk</value>
<description>The hostname to send documents to using TransportClient. Either host
and port must be defined or cluster.</description>
</property>
<property>
<name>elastic.port</name>
<value>9300</value>The port to connect to using TransportClient.<description>
</description>
</property>
<property>
<name>elastic.cluster</name>
<value>elasticsearch</value>
<description>The cluster name to discover. Either host and potr must be defined
or cluster.</description>
</property>
<property>
<name>elastic.index</name>
<value>nutch</value>
<description>Default index to send documents to.</description>
</property>
Index-Writers. xml:
<writers xmlns="http://lucene.apache.org/nutch"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://lucene.apache.org/nutch index-writers.xsd">
<writer id="indexer_elastic_1" class="org.apache.nutch.indexwriter.elastic.ElasticIndexWriter">
<parameters>
<param name="host" value="elk"/>
<param name="port" value="9300"/>
<param name="cluster" value="elasticsearch"/>
<param name="index" value="nutch"/>
<param name="max.bulk.docs" value="250"/>
<param name="max.bulk.size" value="2500500"/>
<param name="exponential.backoff.millis" value="100"/>
<param name="exponential.backoff.retries" value="10"/>
<param name="bulk.close.timeout" value="600"/>
Мой Docker -компонент:
nutch:
image: "apache/nutch:latest"
environment:
- ELASTICSEARCH_HOST=elk
- ELASTICSEARCH_PORT=9200
- ELASTICSEARCH_ENDPOINT=http://elk:9200/
- JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
elk:
image: elasticsearch:2.3.3
environment:
- cluster.name=elasticsearch
- bootstrap.memory_lock=true
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
ports:
- 9200:9200
- 9300:9300
У меня тоже есть тома, но здесь это не актуально.
Журналы:
root@90787d459da7: ~ / nutch_source / runtime / local # bin / nutch index -D elasti c .server.url = http://elk.9200 crawl / crawldb / -linkdb crawl / linkdb / crawl / сегменты / * -фильтр -normalize -deleteGone
Каталог сегмента завершен: сканирование / сегментов / 20200306131901.
Каталог сегмента завершен: сканирование /segments/20200306131932.
Indexer: начиная с 2020-03-06 13: 23: 45
Indexer: удаление пропущенных документов: true
Indexer: фильтрация URL-адресов: true
Индексатор: нормализация URL: true
Обмен не был настроен. Документы будут направлены всем составителям индексов. ОШИБКА StatusLogger Log4j2 не удалось найти реализацию ведения журнала. Пожалуйста, добавьте log4j-core в путь к классам. Использование SimpleLogger для входа в консоль ...
Active IndexWriters: ElasticIndexWriter:
??????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ??????????????????????????????? кластер Имя кластера для обнаружения. Либо хост и порт должны быть определены, либо кластер. ? Elasticsearch? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? host? Разделенный запятыми список имен хостов для отправки документов с использованием TransportClient. Либо хост и порт должны быть? Elk? ? Определен или кластер. ? ? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? port? Порт, к которому нужно подключиться с помощью TransportClient. 9300 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? index Индекс по умолчанию для отправки документов. орешек ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? max.bulk.docs? Максимальный размер объема в количестве документов. 250? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? max.bulk.size Максимальный размер объема в байтах. 2500500 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? exponential.backoff.millis? Начальная задержка для политики экспоненциального отката BulkProcessor. 100? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? exponential.backoff.retries? Сколько раз политика экспоненциального отката BulkProcessor должна повторять массовые операции. 10 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? «bulk.close.timeout» Количество секунд, в течение которых BulkProcessor завершил свою последнюю операцию. 600? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ????
Индексатор: количество проиндексированных, удаленных или пропущенных документов:
Индексатор: 6 проиндексированных (добавить / обновить)
Индексатор: завершено в 2020-03-03 -06 13:23:48, прошло: 00: 00: 02
Скручивание внутри гайки bash:
{
"name" : "Fantasia",
"cluster_name" : "elasticsearch",
"version" : {
"number" : "2.3.3",
"build_hash" : "218bdf10790eef486ff2c41a3df5cfa32dadcfde",
"build_timestamp" : "2016-05-17T15:40:04Z",
"build_snapshot" : false,
"lucene_version" : "5.5.0"
},
"tagline" : "You Know, for Search"
}
Спасибо за все!