Я пытаюсь проиндексировать несколько файлов CSV с разными «схемами» в индексе Solr. Возможно, есть несколько общих элементов схемы (столбцы заголовков) в этих CSV. Мое требование состоит в том, чтобы иметь возможность обеспечивать поиск по этим CSV среди других элементов.
- Насколько я понимаю, одним из способов индексации было бы рассматривать весь CSV как гигантскую текстовую строку и индексировать ее. Я не уверен, какие аспекты поиска будут затронуты, если я буду индексировать таким образом.
- Другой способ - определить общую схему, а затем программно извлечь столбцы из do c и индексировать построчно с предупреждением что если файл не имеет какой-либо общей схемы, я не смогу его проиндексировать. (Кстати, эта последняя часть, возможно, не является для меня стартовой, но сейчас давайте просто потакаем этой возможности)
Есть ли другие способы? Есть ли какое-то преимущество перед другим?
Кстати, я пробовал режим без схемы, но он у меня не работает. Я могу проиндексировать первый файл, но в тот момент, когда я делаю следующий файл, и он имеет несколько разных столбцов, он возвращает ошибку. Это ожидаемое поведение, или я делаю что-то не так?
Оцените любые указатели, спасибо!
Обновление: ошибка в режиме без схемы "Неправильный формат даты". После некоторого исследования кажется, что это другая проблема, чем я думал, вызванная тем, что Solr автоматически определяет данные как даты и ожидает, что они будут в формате UT C, а это не так. Можно ли как-нибудь отключить автоопределение дат?