У меня есть почти 150 тысяч статей на турецком языке. Я буду использовать статьи для исследования обработки естественного языка.
Я хочу хранить слова и их частоту для каждой статьи после обработки статей.
Я храню их в RDBS.
У меня есть 3 таблицы:
Статьи -> article_id, текст
Слова -> слово_ид, тип, слово
Words-Article -> id, word_id, article_id, частота (индекс для word_id, индекс для article_id)
Я буду запрашивать
- ВСЕ слова в статье
- частота одного слова на статью
- Слово вхождения во всех статьях и в каких статьях
У меня миллионы строк в таблице слов-статей. Я всегда работал с RDBS в этом проекте. начал с mysql и теперь использовал oracle. Но я не хочу использовать oracle и хочу иметь лучшую производительность, чем mysql.
Также я должен справиться с этой работой на машине с 4 Гб оперативной памяти.
Проще говоря, как сохранить матрицу термина документа и сделать запрос по ней? производительность необходима. могут ли базы данных «ключ-значение» превзойти MySQL по производительности? или что может победить mysql?
если ваш ответ зависит от языка программирования, я пишу код на python. Но C / C ++, Java в порядке.