У меня есть 2 каталога: один с txt-файлами, а другой - с соответствующими файлами JSON (метаданных) (около 90000 каждого).Существует один файл JSON для каждого файла CSV, и они имеют одно и то же имя (они не разделяют другие поля).Я пытаюсь проиндексировать все эти файлы в Apache Solr.
TXT-файлы просто имеют простой текст, я сопоставил каждую строку с полем вызова «предложение» и включил имя файла в качестве поля, используя обработчик импорта данных,Здесь нет проблем.
Файл JSON содержит метаданные: 3 тега: URL, автор и заголовок (для содержимого в соответствующем текстовом файле).Когда я индексирую файл JSON (я просто использовал схему _default и разместил поля в схеме, как объяснено в официальном руководстве по solr), я не знаю, как получить имя файла в индексе как поле.Насколько я знаю, это не способ использовать обработчик импорта данных для файлов JSON.Я читал, что могу передать литерал через инструмент bin / post, но, насколько я понимаю, я не могу передать имя файла динамически как литерал.
Мне нужно получить имя файла, это единственный способ, которым я могу связать метаданные с каждым предложением в текстовых файлах в моем нижестоящем коде Python.
Так что, если у кого-то естьпредложение о том, как мне индексировать имя файла JSON вместе с содержимым JSON (или даже какой-то обходной путь), я был бы вечно благодарен.