Проблемы с интеграцией Apache Nutch и ELK - PullRequest
0 голосов
/ 06 марта 2020

У меня проблемы с интеграцией Nutch 1.x и ELS 2.3.3 . Я уже установил localhost для моего elk: 9200 compose, поэтому, когда я "свернулся", выдает мне аутентификацию. Но при индексации содержимого для обхода в ELS задание обычно не выполняется. В моем Compose локальный хост - это "лось".

Мой сайт-орех. xml:

<property>
  <name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</$
  <description>
  </description>
</property>

<!-- Elasticsearch properties -->

<property>
  <name>elastic.host</name>
  <value>elk</value>
  <description>The hostname to send documents to using TransportClient. Either host
  and port must be defined or cluster.</description>
</property>

<property>
  <name>elastic.port</name>
  <value>9300</value>The port to connect to using TransportClient.<description>
  </description>
</property>

<property>
  <name>elastic.cluster</name>
  <value>elasticsearch</value>
  <description>The cluster name to discover. Either host and potr must be defined
  or cluster.</description>
</property>

<property>
  <name>elastic.index</name>
  <value>nutch</value>
  <description>Default index to send documents to.</description>
</property>

Index-Writers. xml:

<writers xmlns="http://lucene.apache.org/nutch"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://lucene.apache.org/nutch index-writers.xsd">

  <writer id="indexer_elastic_1" class="org.apache.nutch.indexwriter.elastic.ElasticIndexWriter">
    <parameters>
      <param name="host" value="elk"/>
      <param name="port" value="9300"/>
      <param name="cluster" value="elasticsearch"/>
      <param name="index" value="nutch"/>
      <param name="max.bulk.docs" value="250"/>
      <param name="max.bulk.size" value="2500500"/>
      <param name="exponential.backoff.millis" value="100"/>
      <param name="exponential.backoff.retries" value="10"/>
      <param name="bulk.close.timeout" value="600"/>

Мой Docker -компонент:

nutch:

    image: "apache/nutch:latest"
    environment: 
       - ELASTICSEARCH_HOST=elk
       - ELASTICSEARCH_PORT=9200
       - ELASTICSEARCH_ENDPOINT=http://elk:9200/   
       - JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
elk:

    image: elasticsearch:2.3.3
    environment:
      - cluster.name=elasticsearch
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ports:
      - 9200:9200
      - 9300:9300 

У меня тоже есть тома, но здесь это не актуально.

Журналы:

root@90787d459da7: ~ / nutch_source / runtime / local # bin / nutch index -D elasti c .server.url = http://elk.9200 crawl / crawldb / -linkdb crawl / linkdb / crawl / сегменты / * -фильтр -normalize -deleteGone

Каталог сегмента завершен: сканирование / сегментов / 20200306131901.

Каталог сегмента завершен: сканирование /segments/20200306131932.

Indexer: начиная с 2020-03-06 13: 23: 45

Indexer: удаление пропущенных документов: true

Indexer: фильтрация URL-адресов: true

Индексатор: нормализация URL: true

Обмен не был настроен. Документы будут направлены всем составителям индексов. ОШИБКА StatusLogger Log4j2 не удалось найти реализацию ведения журнала. Пожалуйста, добавьте log4j-core в путь к классам. Использование SimpleLogger для входа в консоль ...

Active IndexWriters: ElasticIndexWriter:

??????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ??????????????????????????????? кластер Имя кластера для обнаружения. Либо хост и порт должны быть определены, либо кластер. ? Elasticsearch? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? host? Разделенный запятыми список имен хостов для отправки документов с использованием TransportClient. Либо хост и порт должны быть? Elk? ? Определен или кластер. ? ? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? port? Порт, к которому нужно подключиться с помощью TransportClient. 9300 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? index Индекс по умолчанию для отправки документов. орешек ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? max.bulk.docs? Максимальный размер объема в количестве документов. 250? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? max.bulk.size Максимальный размер объема в байтах. 2500500 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? exponential.backoff.millis? Начальная задержка для политики экспоненциального отката BulkProcessor. 100? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? ? exponential.backoff.retries? Сколько раз политика экспоненциального отката BulkProcessor должна повторять массовые операции. 10 ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ???? «bulk.close.timeout» Количество секунд, в течение которых BulkProcessor завершил свою последнюю операцию. 600? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ?????????????????????????????????????????????????? ????

Индексатор: количество проиндексированных, удаленных или пропущенных документов:

Индексатор: 6 проиндексированных (добавить / обновить)

Индексатор: завершено в 2020-03-03 -06 13:23:48, прошло: 00: 00: 02

Скручивание внутри гайки bash:

{
 "name" : "Fantasia",
 "cluster_name" : "elasticsearch",
 "version" : {
   "number" : "2.3.3",
   "build_hash" : "218bdf10790eef486ff2c41a3df5cfa32dadcfde",
   "build_timestamp" : "2016-05-17T15:40:04Z",
   "build_snapshot" : false,
   "lucene_version" : "5.5.0"
 },
 "tagline" : "You Know, for Search"
}

Спасибо за все!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...