Индексирование содержимого файла CSV в Python - PullRequest
1 голос
/ 17 апреля 2010

У меня очень большой CSV-файл, содержащий только два поля (id, url). Я хочу выполнить индексацию поля url с помощью python, я знаю, что есть некоторые инструменты, такие как Whoosh или Pylucene но я не могу заставить примеры работать. Может ли кто-нибудь помочь мне с этим?

Ответы [ 2 ]

1 голос
/ 17 апреля 2010

С PyLucene очень легко работать, но, поскольку вы не опубликовали свой пример, я не уверен, с какой проблемой вы столкнулись.

В качестве альтернативы, когда у вас есть только данные типа ключ: значение, может быть лучше, чем у Pylucene будет DB, как Berkeley DB (привязки Python pybsddb ). Он будет работать как словарь Python и должен быть быстрее или быстрее, чем Lucene, вы можете попробовать это.

0 голосов
/ 17 апреля 2010

file.csv содержимое:

a,b
d,f
g,h

Python-скрипт, который загружает все это в один гигантский словарь:

#Python 3.1
giant_dict = {id.strip(): url.strip() for id, url in (line.split(',') for line in open('file.csv', 'r'))}

print(giant_dict)
{'a': 'b', 'd': 'f', 'g': 'h'}
...