Индексировать несколько файлов CSV с разными заголовками в Solr - PullRequest
0 голосов
/ 11 марта 2020

Я пытаюсь проиндексировать несколько файлов CSV с разными «схемами» в индексе Solr. Возможно, есть несколько общих элементов схемы (столбцы заголовков) в этих CSV. Мое требование состоит в том, чтобы иметь возможность обеспечивать поиск по этим CSV среди других элементов.

  • Насколько я понимаю, одним из способов индексации было бы рассматривать весь CSV как гигантскую текстовую строку и индексировать ее. Я не уверен, какие аспекты поиска будут затронуты, если я буду индексировать таким образом.
  • Другой способ - определить общую схему, а затем программно извлечь столбцы из do c и индексировать построчно с предупреждением что если файл не имеет какой-либо общей схемы, я не смогу его проиндексировать. (Кстати, эта последняя часть, возможно, не является для меня стартовой, но сейчас давайте просто потакаем этой возможности)

Есть ли другие способы? Есть ли какое-то преимущество перед другим?

Кстати, я пробовал режим без схемы, но он у меня не работает. Я могу проиндексировать первый файл, но в тот момент, когда я делаю следующий файл, и он имеет несколько разных столбцов, он возвращает ошибку. Это ожидаемое поведение, или я делаю что-то не так?

Оцените любые указатели, спасибо!

Обновление: ошибка в режиме без схемы "Неправильный формат даты". После некоторого исследования кажется, что это другая проблема, чем я думал, вызванная тем, что Solr автоматически определяет данные как даты и ожидает, что они будут в формате UT C, а это не так. Можно ли как-нибудь отключить автоопределение дат?

...