Индексирование файла вложения к упругому поиску - PullRequest
3 голосов
/ 18 августа 2011

Я набрал эту команду для индексации документа в Elasticsearch

создать индекс

curl -X PUT "localhost:9200/test_idx_1x"

создать отображение

curl -X PUT "localhost:9200/test_idx_1x/test_mapping_1x/_mapping" -d '{
  "test_mapping_1x": {
    "properties": {
      "my_attachments": {
        "type": "attachment"
      }
    }
  }
}'

индексировать этот документ

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/4' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "test Elastic Search",
  "name": "N1"
}'

Все эти три команды очень полезны. Но когда я набираю эту команду:

curl -XPOST 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": {
    "type": "attachment",
    "_content_type": "text/plain",
    "file": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt"
  }
}'

Я получаю это сообщение об ошибке:

{
  "error": "NullPointerException[null]",
  "status": 500
}

Я изменяю это на;

curl -XPOST 'http://localhost:9200/test_idx_1x/test_mapping_1x/1bis' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": {
    "type": "attachment",
    "_content_type": "text/plain",
    "_name": "/inf/bd/my_home_directory/test.txt"
  }
}'

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": {
    "file": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt"
  }
}'

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": {
    "file": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt",
    "_content_type": "text/plain"
  }
}'

Вывод такой же ошибки.

Я меняю это так

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "user": "kimchy",
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": {
    "file": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt",
    "_content_type": "text/plain",
    "content": "... base64 encoded attachment ..."
  }
}'

ошибка

{
  "error": "MapperParsingException[Failed to parse]; nested: JsonParseException[Failed to decode VALUE_STRING as base64 (MIME-NO-LINEFEEDS): Illegal character '.' (code 0x2e) in base64 content\n at [Source: [B@159b3; line: 1, column: 241]]; ",
  "status": 400
}

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt"
}'

Я получаю это сообщение об ошибке:

{
  "error": "MapperParsingException[Failed to parse]; nested: JsonParseException[Unexpected character ('h' (code 104)): expected a valid value (number, String, array, object, 'true', 'false' or 'null')\n at [Source: [B@1ae9565; line: 1, column: 132]]; ",
  "status": 400
}

если я наберу

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/1' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": "http://localhost:5984/my_test_couch_db_7/ID2/test.txt"
}'

Я получаю ошибку. Я могу понять это

{
  "error": "MapperParsingException[Failed to parse]; nested: JsonParseException[Failed to decode VALUE_STRING as base64 (MIME-NO-LINEFEEDS): Illegal character ':' (code 0x3a) in base64 content\n at [Source: [B@1ffb7d4; line: 1, column: 137]]; ",
  "status": 400
}

Как я могу использовать прикрепленные файлы к ES, чтобы ES мог его проиндексировать?


Спасибо за ваш ответ. Этот подключаемый модуль я уже установил, когда набираю эти команды. Содержимое текстового файла закодировано в Base64, поэтому я больше не кодирую его. Если я не использую путь к файлу, но напрямую использую его содержимое в Base 64, например.

curl -XPUT 'http://localhost:9200/test_idx_1x/test_mapping_1x/' -d '{
  "post_date": "2009-11-15T14:12:12",
  "message": "trying out Elastic Search",
  "name": "N2",
  "my_attachments": "file's content string encoded in base64"
}'

все хорошо, мне уже удалось опубликовать файл и позже искать его содержимое.

Но если я заменю его на файл пути, я получу отрицательные результаты. Поэтому я хочу знать, как кодировать Base64 файл в командной строке, в команде индексации ES (конечно, я не хочу вводить команду base64 для кодирования файла перед тем, как вводить вторую команду для индексации его в ES). Как ваш ответ, я должен установить что-то вроде "библиотеки Perl", чтобы выполнить вашу команду?

Ответы [ 4 ]

4 голосов
/ 18 ноября 2013

http://es -cn.medcl.net / tutorials / 2011/07/18 / тип приложения в действии.html

#!/bin/sh

coded=`cat fn6742.pdf | perl -MMIME::Base64 -ne 'print encode_base64($_)'`
json="{\"file\":\"${coded}\"}"
echo "$json" > json.file
curl -X POST "localhost:9200/test/attachment/" -d @json.file
3 голосов
/ 20 августа 2011

Во-первых, вы не указываете, установлен ли у вас плагин attachment. Если нет, вы можете сделать это с помощью:

./bin/plugin -install mapper-attachments

Вам нужно будет перезапустить ElasticSearch, чтобы загрузить плагин.

Затем, как вы делаете выше, вы отображаете поле для типа attachment:

curl -XPUT 'http://127.0.0.1:9200/foo/?pretty=1'  -d '
{
   "mappings" : {
      "doc" : {
         "properties" : {
            "file" : {
               "type" : "attachment"
            }
         }
      }
   }
}
'

Когда вы пытаетесь проиндексировать документ, вам необходимо закодировать содержимое вашего файла в Base64. Вы можете сделать это в командной строке, используя утилиту командной строки base64. Однако, чтобы быть допустимым JSON, вам также необходимо кодировать новые строки, что можно сделать, передавая выходные данные из base64 через Perl:

curl -XPOST 'http://127.0.0.1:9200/foo/doc?pretty=1'  -d '
{
   "file" : '`base64 /path/to/file | perl -pe 's/\n/\\n/g'`'
}
'

Теперь вы можете искать ваш файл:

curl -XGET 'http://127.0.0.1:9200/foo/doc/_search?pretty=1'  -d '
{
   "query" : {
      "text" : {
         "file" : "text to look for"
      }
   }
}
'

Подробнее см. Тип крепления ElasticSearch .

0 голосов
/ 12 октября 2015

Существует альтернативное решение - плагин на http://elasticwarehouse.org. Вы можете загрузить двоичный файл, используя _ewupload?, Прочитать новый сгенерированный идентификатор и обновить свой другой индекс с помощью этой ссылки.

Установить плагин:

plugin -install elasticwarehouseplugin -u http://elasticwarehouse.org/elasticwarehouse/elasticsearch-elasticwarehouseplugin-1.2.2-1.7.0-with-dependencies.zip

Перезагрузите кластер, затем:

curl -XPOST "http://127.0.0.1:9200/_ewupload?folder=/myfolder&filename=mybinaryfile.bin" --data-binary @mybinaryfile.bin

Пример ответа:

{"id":"nWvrczBcSEywHRBBBwfy2g","version":1,"created":true}
0 голосов
/ 02 февраля 2013

Это полная реализация сценария оболочки:

file_path='/path/to/file'
file=$(base64 $file_path | perl -pe 's/\n/\\n/g')
curl -XPUT "http://eshost.com:9200/index/type/" -d '{
    "file" : "content" : "'$file'"
}'
...