Question

У меня есть список из 17 миллионов предложений в текстовом файле.Каждое предложение содержит не более 200 символов.Каждое предложение также сопровождается одной или несколькими аннотациями с ним.У меня есть список уникальных аннотаций и список уникальных слов, полученных из 17 миллионов предложений.Я должен создать разреженную матрицу со строками в качестве уникальных слов и столбцами в качестве аннотаций (318k).Каждое значение матрицы будет числом раз, когда каждое слово появляется с аннотацией.

Структура данных матрицы
Размер матрицы, очевидно, будет очень большим.Указатели на обработку таких огромных размеров матрицы?На мой взгляд, одной из непосредственных мыслей было использование файла CSV.

Совпадение поиска слова
Каждое предложение может содержать одну или несколько аннотаций.Указатели на вещи, которые я должен сделать, чтобы ускорить мой поиск, и вещи, о которых нужно позаботиться.

Я в порядке с Python / Java.Если есть что-то еще, например Shell Script / Perl и т. Д., Которые облегчили бы мою задачу, я был бы рад использовать это
Я думаю об использовании Lucene для поиска.Я НЕ уверен, что Lucene необходим, поскольку все мои предложения проиндексированы в БД
Я прошу прощения за то, что не опубликовал код, но это не домашняя работа!Идея / предложение / указатель будет работать для меня.

S.Lott · Answer 1 · 13 июля 2010

Для разреженных матриц не используйте фактическую матрицу или список.

Используйте словарь по ключевым словам и аннотациям.Гораздо проще.

matrix[ (word,annotation) ] += 1

John La Rooy · Answer 2 · 13 июля 2010

В python2.7 + вы можете использовать счетчик

>>> from collections import Counter
>>> matrix = Counter()
>>> matrix[(word,annotation)]+=1

для старого Python используйте defaultdict

>>> from collections import defaultdict
>>> matrix = defaultdict(int)
>>> matrix[(word,annotation)]+=1

Term-Topic Matrix для огромного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Term-Topic Matrix для огромного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов