Индексирование твитов в Lucene - PullRequest
0 голосов
/ 10 декабря 2011

На данный момент у меня есть несколько твитов, которые я хочу проиндексировать, однако каждый из них находится в небольшом документе.Если бы я собирал их, скажем, в 100 твитов на файл, можно ли использовать Lucene для их индексации, но в то же время поддерживать идентификатор твита (столбец идентификатора, присутствующий в файле)?

Например, каждыйстрока выглядит так:

TweetID | TweetText

Спасибо, Энди.

1 Ответ

0 голосов
/ 13 декабря 2011

Solr называет эти «многозначные поля», и способ, которым они достигают этого, - через смещения.По сути, вы выделяете, скажем, 200 байт на твит, а затем устанавливаете смещение n-го твита, чтобы оно начиналось со смещения 200 *.

При поиске вы можете получить смещение соответствующего твита и выяснить, какой твит соответствует.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...