Я отправил это сообщение в список рассылки Solr, но я пытаюсь и здесь на случай, если вокруг будет скрываться эксперт Solr.
Я пытаюсь использовать фрагментатор регулярных выражений, и мне трудно получить желаемые результаты. Я пытаюсь получить фрагменты, которые начинаются с символа слова и заканчиваются пунктуацией, но по какой-то причине возвращаемые мне фрагменты кажутся очень негибкими, несмотря на то, что я обеспечил большой провал. Вот соответствующие параметры, которые я использую, может быть, кто-то может помочь указать, где я ошибся:
<str name="hl.fragsize">500</str>
<str name="hl.fragmenter">regex</str>
<str name="hl.regex.slop">0.8</str>
<str name="hl.regex.pattern">[\w].*{400,600}[.!?]</str>
<str name="hl">true</str>
<str name="q">chinese</str>
Это должно соответствовать 400-600 символов, начиная с символа слова и заканчивая одним из.!?. Вот пример типичного результата:
. Проверьте эти картинки. Девять панда
Детеныши на выставке впервые
Четверг на юго-западе Китая. Они
меньше года Они просто
недавно перестала кормить грудью. Есть
только 1600 из этих парней остались в
горные леса центрального Китая,
еще 120 в китайском разведении
объекты и зоопарки. И они о
20, которые живут за пределами Китая в зоопарках.
Они существуют почти полностью на бамбуке.
Они могут дожить до 30 лет. А также
эти маленькие парни в конечном итоге получат
намного больше. Они вырастут
Как видите, он начинается с точки и заканчивается символом слова! Это почти так, как будто фрагменты просто выходят, как они будут, и регулярное выражение вообще ничего не делает, но результаты меняются, когда я использую фрагментатор разрыва. В приведенном выше результате я не вижу никакой причины, по которой он не должен был бы удалить предыдущий период и последние два слова, в пробеле и в регулярном выражении достаточно места. Пожалуйста, помогите мне понять, что я делаю не так ...
Большое спасибо,
Mark