Solr post.jar вылетает с "содержание не разрешено в прологе" - PullRequest
0 голосов
/ 27 мая 2018

Я пытаюсь оценить Solr, но не могу начать сканирование сайтов с включенной рекурсивной опцией.Искал ответ, но не повезло.Среда: Windows Server 2012 r2, версия java "1.8.0_171", solr-7.3.0.

При запуске инструмента post.jar появляется следующая ошибка:

java -Dauto=yes -Dc=testcore -Ddata=web -Drecursive=2 -Ddelay=10 -jar post.jar http://localhost/

SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/testcore/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
Entering recursive mode, depth=2, delay=10s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://localhost/ (depth: 0)
[Fatal Error] :1:1: Content is not allowed in prolog.
Exception in thread "main" java.lang.RuntimeException: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is not allowed in prolog.
        at org.apache.solr.util.SimplePostTool$PageFetcher.getLinksFromWebPage(SimplePostTool.java:1252)
        at org.apache.solr.util.SimplePostTool.webCrawl(SimplePostTool.java:616)
        at org.apache.solr.util.SimplePostTool.postWebPages(SimplePostTool.java:563)
        at org.apache.solr.util.SimplePostTool.doWebMode(SimplePostTool.java:365)
        at org.apache.solr.util.SimplePostTool.execute(SimplePostTool.java:187)
        at org.apache.solr.util.SimplePostTool.main(SimplePostTool.java:172)
Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is not allowed in prolog.
        at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
        at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
        at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
        at org.apache.solr.util.SimplePostTool.makeDom(SimplePostTool.java:1061)
        at org.apache.solr.util.SimplePostTool$PageFetcher.getLinksFromWebPage(SimplePostTool.java:1232)
        ... 5 more

Iмогу индексировать все ссылки (на файлы и на другие страницы) вручную в http://localhost/, если я делаю одну за другой с отключенной рекурсивной опцией, поэтому я не думаю, что есть какие-либо файлы или ссылки со специальными символами.Спасибо всем, ваша помощь приветствуется.

Ответы [ 3 ]

0 голосов
/ 14 июня 2018

Удалите -Drecursive = 2, это создавало проблему, используя следующую команду:

java -Dauto = yes -Dc = testcore -Ddata = web -Ddelay = 10 -jar post.jar http://localhost/

0 голосов
/ 16 июля 2019

С помощью Drupal я решил эту проблему с помощью 6-строчного сценария, не требующего использования Nutch и т. Д., А также НИОКР, проблем с окружением и т. Д..

Вы можете легко адаптировать это, чтобы использовать список URL-адресов, созданных с помощью wget для сканирования вашего сайта, или просто опубликовать их, когда wget сканирует ваш сайт.Я планирую сделать это, если получу отговор от маркетинга по поводу использования / node / [nodeId] urls.

Этот конкретный сценарий оболочки достаточно медленный, и мне даже не нужно было выдавать задержку.

0 голосов
/ 09 июня 2018

Мне не удалось заставить инструмент post.jar работать правильно.После попыток и устранения неполадок Nutch 1.8 мне наконец удалось заставить его сканировать веб-страницы и автоматически переходить по ссылкам.Вот что я сделал: установил cygwin, установил / извлек Nutch в папку cygwin / home, загрузил Hadoop-0.20.20-core.jar и вставил в cygwin / home / apache-nutch-1.8 / lib.После этого я смог завершить урок по Nutch: https://wiki.apache.org/nutch/NutchTutorial Было несколько других незначительных ошибок, но я не помню, что это было (мне нужно поработать над лучшей документацией ..).) В любом случае, если кто-то пытается сделать это в такой же среде, как у меня, не стесняйтесь отправить мне сообщение.

...