хэш-индекс в текстовом файле - PullRequest
0 голосов
/ 28 марта 2012

У меня проблема с пониманием следующей строки:

Создать хэш-индекс для text.txt с идентификаторами в качестве ключей и полнотекстовой записью в качестве данных.

 text.txt
 000000010:<status> <id>000000010</id> <created_at>2012/03/11</created_at> <text>@joerogan Played as Joe Savage Rogan in Undisputed3 Career mode, won Pride GP, got UFC title shot against Shields, lost 3 times, and retired</text> <retweet_count>0</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status>
 000000011:<status> <id>000000011</id> <created_at>2012/03/11</created_at> <text>Cat and Metronome: http://t.co/3Z7Aq8Dn</text> <retweet_count>3</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status>
 ...

Я не уверенчто я должен делать

Должен ли я создать еще один текстовый файл для хранения хеш-индекса?Похоже, что id уникален для каждой строки, и мне даже не нужно хэшировать в этом случае.Могу ли я сделать это с помощью команды db_load?

Заранее спасибо за помощь!

1 Ответ

0 голосов
/ 28 марта 2012

Цель индекса - ускорить поиск по набору данных.Поэтому в этом случае я ожидал бы, что смогу использовать ваш индекс для быстрого поиска записей из вашего текстового файла.Индекс гипотетически будет состоять из кортежа, состоящего из идентификатора записи и смещения в файле, где начинается соответствующая запись.

Вероятно, было бы лучше сохранить индекс в отдельном файле - вы могли быприсвойте ему имя, соответствующее индексируемому файлу (например, text.idx).

...