У меня есть список из 17 миллионов предложений в текстовом файле.Каждое предложение содержит не более 200 символов.Каждое предложение также сопровождается одной или несколькими аннотациями с ним.У меня есть список уникальных аннотаций и список уникальных слов, полученных из 17 миллионов предложений.Я должен создать разреженную матрицу со строками в качестве уникальных слов и столбцами в качестве аннотаций (318k).Каждое значение матрицы будет числом раз, когда каждое слово появляется с аннотацией.
Структура данных матрицы
Размер матрицы, очевидно, будет очень большим.Указатели на обработку таких огромных размеров матрицы?На мой взгляд, одной из непосредственных мыслей было использование файла CSV.
Совпадение поиска слова
Каждое предложение может содержать одну или несколько аннотаций.Указатели на вещи, которые я должен сделать, чтобы ускорить мой поиск, и вещи, о которых нужно позаботиться.
- Я в порядке с Python / Java.Если есть что-то еще, например Shell Script / Perl и т. Д., Которые облегчили бы мою задачу, я был бы рад использовать это
- Я думаю об использовании Lucene для поиска.Я НЕ уверен, что Lucene необходим, поскольку все мои предложения проиндексированы в БД
- Я прошу прощения за то, что не опубликовал код, но это не домашняя работа!Идея / предложение / указатель будет работать для меня.