Question

На данный момент у меня есть несколько твитов, которые я хочу проиндексировать, однако каждый из них находится в небольшом документе.Если бы я собирал их, скажем, в 100 твитов на файл, можно ли использовать Lucene для их индексации, но в то же время поддерживать идентификатор твита (столбец идентификатора, присутствующий в файле)?

Например, каждыйстрока выглядит так:

TweetID | TweetText

Спасибо, Энди.

Xodarap · Answer 1 · 13 декабря 2011

Solr называет эти «многозначные поля», и способ, которым они достигают этого, - через смещения.По сути, вы выделяете, скажем, 200 байт на твит, а затем устанавливаете смещение n-го твита, чтобы оно начиналось со смещения 200 *.

При поиске вы можете получить смещение соответствующего твита и выяснить, какой твит соответствует.

Индексирование твитов в Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексирование твитов в Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов