Импорт или индексирование данных Hive / HDFS с помощью Apache Solr - PullRequest
0 голосов
/ 02 мая 2018

Я хочу использовать Apache Solr для импорта или индексирования таблиц Hive, хранящихся в файлах Parquet в HDFS. Насколько я знаю, первым шагом является импорт или индексирование данных в solr, но я мало что знаю об этом.

Это мои вопросы:

  1. Выберите, какие способы: Обработчик импорта данных (DIH) , HTTP?
  2. Solr 4.9 поддерживает индекс HDFS, чем отличается?

Окружающая среда: solr 4.10 + CDH5.11

Пожалуйста, помогите.

1 Ответ

0 голосов
/ 04 июня 2019

Попробуйте с ниже: -

1.) Создал базовую таблицу в улье

hive> создать таблицу solrinput3 (строка имени пользователя) в формате строки с разделителями, оканчивающейся на ',';

2.) Загруженные образцы данных в таблицу 'solrinput3' выглядят следующим образом:

куст> вставить в значения solrinput3 ('sanvi');

3.) ДОБАВИТЬ JAR /opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;

4.) Теперь я создал интегрированную таблицу solr-hive следующим образом:

СОЗДАТЬ ВНЕШНЮЮ ТАБЛИЦУ dbname.solrtest (title STRING)

STORED BY 'com.lucidworks.hadoop.hive.LWStorageHandler'

LOCATION '/ lob / test / hive_test'

TBLPROPERTIES ('solr.server.url' = 'http://XXXX.XXX.XXX:8983/solr',

'solr.collection' = 'myproj_collection1',

'solr.query' = ': ');

5.) Вставить таблицу перезаписи solrtest select * from solrinput3;

...