Схема / индекс Solr для файла CSV с кавычками и несколькими запятыми - PullRequest
0 голосов
/ 18 октября 2018

Solr новичок здесь.Я работал над кучей онлайн-уроков и сейчас загружаю свои данные.У меня проблемы с индексацией в моих данных.Я использую Solr 7.5.

Вот взгляд на подмножество данных.Все мои данные хранятся в CSV-файлах:

global_sentence_id,document_id,sentence_id,sentence,span 0,0,0,All right Jim .,"(0, 14)" 1,0,1,Your quarterlies look very good .,"(15, 47)" 2,0,2,How are things at the library ?,"(48, 78)" 3,1,0,"Oh , I told you .","(0, 15)" 4,1,1,I could n't close it .,"(16, 36)" 5,1,2,So ...,"(37, 42)" 6,2,0,So you 've come to the master for guidance ?,"(0, 42)" 7,2,1,"Is this what you 're saying , grasshopper ?","(43, 83)" 8,3,0,"Actually , you called me in here , but yeah .","(0, 42)" 9,4,0,All right .,"(0, 10)" 10,4,1,"Well , let me show you how it 's done .","(11, 47)"

Как видите, это 5 полей.Я буду в основном искать в поле «предложение».Это поле будет содержать все виды знаков препинания, несколько предложений, запятые, некоторые имеют кавычки, а другие - нет.Прямо сейчас, если предложение имеет дополнительную пунктуацию (например, запятую), тогда предложение заключено в кавычки, чтобы избежать разбиения на неправильный разделитель (строки 3, 7, 8 и 10).

Вот моиполя, которые я добавил в файл управляемой схемы:

<field name="global_sentence_id" type="string" indexed="true" required="true" stored="true"/> <field name="document_id" type="pint" indexed="true" stored="true"/> <field name="sentence_id" type="pint" indexed="false" stored="true"/> <field name="sentence" type="text_general" indexed="true" stored="true" multiValued="true"/> <field name="span" type="text_general" indexed="false" stored="true" multiValued="true"/>

Для загрузки данных я использую эту команду:

bin/post -c office2 server/solr/office2/tokenized_sentence_corpus.csv

но не указывайте никаких параметров.

Прямо сейчас, когда я загружаю данные, я получаю:

SimplePostTool: WARNING: Solr returned an error #500 (Server Error) for url: http://localhost:8983/solr/office2/update SimplePostTool: WARNING: Response: { "responseHeader":{ "status":500, "QTime":42}, "error":{ "msg":"(line 0) invalid char between encapsulated token end delimiter",

, за которым следует длинное сообщение трассировки.

Я в замешательстве, потому что я могу скопировать и вставить все данные на вкладку «Документы» в пользовательском интерфейсе Solr Admin, и все загружается нормально, и я могу запустить поиск.Мне интересно, если мне нужно указать какие-либо параметры, и если да, то какие.К сожалению, я готовлюсь к запуску этого на виртуальной машине, поэтому функции загрузки документов пользовательского интерфейса не будут полезны.

Любая помощь будет принята с благодарностью!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...