Способы загрузки внешних файлов данных в Apache Solr - PullRequest
0 голосов
/ 06 сентября 2018

Контекст

Я использую официальный Docker Hub Apache Solr 7.4 image внутри GCP Kubernetes Engine.

Выпуск

Мне нужно загрузить документы JSON в индекс. В прошлом у меня был только опыт загрузки документов, хранящихся на том же компьютере, где размещен экземпляр Solr, с помощью команды bin/post или пользовательского интерфейса администратора.

Теперь мне нужно загрузить довольно много документов JSON со своего компьютера в экземпляр Solr в контейнере Docker (точнее, 86 документов ~ 30 МБ каждый). Добавление такого большого количества дополнительных данных к изображению не имеет смысла. И Обновления в формате JSON * Страница 1013 * предоставляет только две опции:

  • Загрузка документов JSON, расположенных на том же компьютере, что и экземпляр Solr, или
  • Указание документа JSON непосредственно в команде curl

Я устал при добавлении документов с помощью команд, которые я ожидаю работать (обратите внимание, что я использую localhost здесь, так как сначала я тестирую образ Docker локально, но идея та же):

curl 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary @/my/local/data/part1.json -H 'Content-type:application/json'

Но приведенное выше возвращает 500 код состояния. Я попробовал несколько других вариантов этого, и ни один не работал.

Каков наилучший способ загрузки внешних файлов данных в Apache Solr?

Было бы также полезно, если бы вы предоставили альтернативное решение, подходящее для моего контекста.

Дополнительная информация

Небольшой образец файла JSON

Это только 2 документа, но я получаю тот же результат, когда пытаюсь загрузить их в файл.

[{"iframe":"<iframe src=\"https:\/\/www.example.com\/embed\/ph5b8e18ce6b447\" frameborder=\"0\" height=\"481\" width=\"608\" scrolling=\"no\"><\/iframe>","main_thumbnail_url":"https:\/\/ci.excdn.com\/file\/201809\/04\/181459731\/original\/(m=eaf8Ggaaaa)(mh=sYnlTgQZyb7M8XKU)8.jpg","title":"Example 1","tags":["t1","t2","t3","t4","t5"],"categories":["a","b","c","d","e","f"],"author_name":null,"duration":501,"views":0,"likes":0,"dislikes":0,"likes_ratio":0.0,"id":4250000},{"iframe":"<iframe src=\"https:\/\/www.example.com\/embed\/ph5b8e18c2943af\" frameborder=\"0\" height=\"481\" width=\"608\" scrolling=\"no\"><\/iframe>","main_thumbnail_url":"https:\/\/ci.excdn.com\/files\/201809\/04\/181459741\/original\/(m=eaf8Ggaaaa)(mh=uumefyKUUQmKHNx0)5.jpg","title":"Example 2","tags":["t1","t2"],"categories":["a","b","c","d","e","f","g","h","i"],"author":null,"duration":53,"views":0,"likes":0,"dislikes":0,"likes_ratio":0.0,"id":4250001}]

StackTrace

{
  "responseHeader":{
    "status":500,
    "QTime":6},
  "error":{
    "trace":"java.lang.NullPointerException\n\tat org.apache.solr.update.processor.AddSchemaFieldsUpdateProcessorFactory$AddSchemaFieldsUpdateProcessor.mapValueClassesToFieldType(AddSchemaFieldsUpdateProcessorFactory.java:509)\n\tat org.apache.solr.update.processor.AddSchemaFieldsUpdateProcessorFactory$AddSchemaFieldsUpdateProcessor.processAdd(AddSchemaFieldsUpdateProcessorFactory.java:396)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldMutatingUpdateProcessor.processAdd(FieldMutatingUpdateProcessor.java:118)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldMutatingUpdateProcessor.processAdd(FieldMutatingUpdateProcessor.java:118)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldMutatingUpdateProcessor.processAdd(FieldMutatingUpdateProcessor.java:118)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldMutatingUpdateProcessor.processAdd(FieldMutatingUpdateProcessor.java:118)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldNameMutatingUpdateProcessorFactory$1.processAdd(FieldNameMutatingUpdateProcessorFactory.java:75)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.FieldMutatingUpdateProcessor.processAdd(FieldMutatingUpdateProcessor.java:118)\n\tat org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:55)\n\tat org.apache.solr.update.processor.AbstractDefaultValueUpdateProcessorFactory$DefaultValueUpdateProcessor.processAdd(AbstractDefaultValueUpdateProcessorFactory.java:92)\n\tat org.apache.solr.handler.loader.JsonLoader$SingleThreadedJsonLoader.handleAdds(JsonLoader.java:501)\n\tat org.apache.solr.handler.loader.JsonLoader$SingleThreadedJsonLoader.processUpdate(JsonLoader.java:145)\n\tat org.apache.solr.handler.loader.JsonLoader$SingleThreadedJsonLoader.load(JsonLoader.java:121)\n\tat org.apache.solr.handler.loader.JsonLoader.load(JsonLoader.java:84)\n\tat org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:97)\n\tat org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:68)\n\tat org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:199)\n\tat org.apache.solr.core.SolrCore.execute(SolrCore.java:2539)\n\tat org.apache.solr.servlet.HttpSolrCall.execute(HttpSolrCall.java:709)\n\tat org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:515)\n\tat org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:377)\n\tat org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:323)\n\tat org.eclipse.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1634)\n\tat org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:533)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:146)\n\tat org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:548)\n\tat org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:257)\n\tat org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:1595)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:255)\n\tat org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1253)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:203)\n\tat org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:473)\n\tat org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:1564)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.nextScope(ScopedHandler.java:201)\n\tat org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1155)\n\tat org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:144)\n\tat org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:219)\n\tat org.eclipse.jetty.server.handler.HandlerCollection.handle(HandlerCollection.java:126)\n\tat org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)\n\tat org.eclipse.jetty.rewrite.handler.RewriteHandler.handle(RewriteHandler.java:335)\n\tat org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:132)\n\tat org.eclipse.jetty.server.Server.handle(Server.java:531)\n\tat org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:352)\n\tat org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:260)\n\tat org.eclipse.jetty.io.AbstractConnection$ReadCallback.succeeded(AbstractConnection.java:281)\n\tat org.eclipse.jetty.io.FillInterest.fillable(FillInterest.java:102)\n\tat org.eclipse.jetty.io.ChannelEndPoint$2.run(ChannelEndPoint.java:118)\n\tat org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.runTask(EatWhatYouKill.java:333)\n\tat org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.doProduce(EatWhatYouKill.java:310)\n\tat org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.tryProduce(EatWhatYouKill.java:168)\n\tat org.eclipse.jetty.util.thread.strategy.EatWhatYouKill.run(EatWhatYouKill.java:126)\n\tat org.eclipse.jetty.util.thread.ReservedThreadExecutor$ReservedThread.run(ReservedThreadExecutor.java:366)\n\tat org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:760)\n\tat org.eclipse.jetty.util.thread.QueuedThreadPool$2.run(QueuedThreadPool.java:678)\n\tat java.base/java.lang.Thread.run(Thread.java:844)\n",
    "code":500}}

Edit:

Это что-то в формате моих файлов JSON ... Я могу загрузить Пример файла JSON Solr без проблем.

Я почти уверен, что мой файл правильно отформатирован в формате JSON, так как я получил его , сохранив Pandas DataFrame как JSON . Стандартный модуль Python json также может загрузить файл без проблем. Так что это связано с тем, как Solr / Java читает мой файл.

1 Ответ

0 голосов
/ 07 сентября 2018

Очевидно, что Solr не допускает null в качестве значения поля (это заставляет Solr выдавать NullPointerException). После изменения null в моем примере JSON-файла на строку, я смог загрузить файлы, выполнив шаги, описанные в вопросе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...