Nutch Indexchecker отображает разбор метатеги дважды - PullRequest
0 голосов
/ 29 октября 2018

Я использую гайку 1.15 с упругим поиском 5.3.3. Я хочу анализировать метатеги и индексировать в упругом поиске. Я могу это сделать, но при выполнении проверки индекса вижу двойные метатеги.

Ниже мой орех-site.xml

<configuration>
<property>
    <name>http.agent.name</name>
    <value>Nutch Spider</value>
</property>

<property>
    <name>plugin.includes</name>
    <value>protocol-http|protocol-httpclient|urlfilter-regex|parse-(html|text|tika|metatags)|index-(basic|anchor|metadata)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-elastic</value>
</property>

<property>
    <name>metatags.names</name>
    <value>Keywords,Owner</value>
</property>

<property>
    <name>index.parse.md</name>
    <value>metatag.Keywords,metatag.owner</value>
</property>

<property>
    <name>index.content.md</name>
    <value>Keywords,owner</value>
</property>
<property>
    <name>http.auth.file</name>
    <value>httpclient-auth.xml</value>
    <description>Authentication configuration file for 'protocol-httpclient' plugin.</description>
</property>

<property>
    <name>db.ignore.external.links</name>
    <value>true</value>
</property>

<property>
    <name>elastic.host</name>
    <value>localhost</value>
</property>

<property>
    <name>elastic.port</name>
    <value>9300</value>
</property>
<property>
    <name>elastic.cluster</name>
    <value>elasticsearch</value>
</property>

<property>
    <name>elastic.index</name>
    <value>nutch</value>
</property>

<property>
    <name>parser.character.encoding.default</name>
    <value>utf-8</value>
</property>

<property>
    <name>http.content.limit</name>
    <!--value>6553600</value-->
    <value>-1</value>
</property>

<property>
    <name>elastic.max.bulk.docs</name>
    <value>250</value>
    <description>Maximum size of the bulk in number of documents.</description>
</property>

<property>
    <name>elastic.max.bulk.size</name>
    <value>2500500</value>
    <description>Maximum size of the bulk in bytes.</description>
</property>
</configuration>

Выход IndexChecker:

]$ bin/nutch indexchecker http://nutch.apache.org/
fetching: http://nutch.apache.org/
robots.txt whitelist not configured.
parsing: http://nutch.apache.org/
contentType: text/html
tstamp :    Mon Oct 29 11:17:49 IST 2018
metatag.owner : dev@nutch.apache.org
metatag.owner : dev@nutch.apache.org
digest :    da0ffbf19768ea2cab9ffa0fb4a778a7
host :  nutch.apache.org
metatag.Keywords :  Apache Nutch Web Crawler
metatag.Keywords :  Apache Nutch Web Crawler
id :    http://nutch.apache.org/
title : Apache Nutch\u2122 -
url :   http://nutch.apache.org/
content :   Apache Nutch\u2122 -
Downloads
Community
Board Reporting
Robots Information
Contribute
Mailing Lists
Peop

Здесь metatag.owner и metatag.Keywords повторяется дважды. Есть ли решение?

...