Google Cloud Search: разъем Apache Nutch, не включены IndexWriters - проверьте свою конфигурацию - PullRequest
0 голосов
/ 16 марта 2019

Ссылка на эту тему нить

Я также пытаюсь использовать Google Cloud Search, но другая проблема.

Я застрял на "IndexWriters не активированы - проверьте вашу конфигурацию"

Я добавляю файл conf / nutch-site.xml с примером в теме

    <property>
      <name>plugin.includes</name>
      <value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|more|metadata)|indexer-google-cloud-search|urlnormalizer-(pass|regex|basic)</value>
      <description>Regular expression naming plugin directory names to
      include.  Any plugin not matching this expression is excluded.
      In any case you need at least include the nutch-extensionpoints plugin. By
      default Nutch includes crawling just HTML and plain text via HTTP,
      and basic indexing and search plugins. In order to use HTTPS please enable
      protocol-httpclient, but be aware of possible intermittent problems with the
      underlying commons-httpclient library.
      </description>
    </property>

Но я не получил вывод ниже.

      INFO  gcs.GoogleCloudSearchIndexWriter - Starting up!

Вместо этого я получил это.

    Indexer: starting at 2019-03-16 14:53:13
    Indexer: deleting gone documents: false
    Indexer: URL filtering: false
    Indexer: URL normalizing: false
    No IndexWriters activated - check your configuration

    Indexer: number of documents indexed, deleted, or skipped:
    Indexer:      1  indexed (add/update)
    Indexer: finished at 2019-03-16 14:53:14, elapsed: 00:00:01

Пожалуйста, наставь меня двигаться вперед.

1 Ответ

0 голосов
/ 18 марта 2019

Вы включили только плагин индексатора (который отправляет данные только на выход, в данном случае GCS). Вам все еще нужно настроить IndexWriter . Взгляните на пример шаблона , поставляемого с Nutch .

...