Я строю базу данных MySQL, в которой будет примерно 10 000 записей. Каждая запись будет содержать текстовый документ (несколько страниц текста в большинстве случаев). Я хочу сделать все виды подсчета n-грамм по всей базе данных. У меня уже есть алгоритмы, написанные на Python, которые будут работать с каталогом, содержащим большое количество текстовых файлов, но для этого мне потребуется извлечь 10000 текстовых файлов из базы данных - это будет иметь проблемы с производительностью.
Я новичок в MySQL, так что я не уверен, есть ли в нем какие-либо встроенные функции, которые выполняют n-граммовый анализ, или есть ли хорошие плагины, которые бы это делали. Обратите внимание, что мне нужно поднять как минимум 4 грамма (предпочтительно 5 граммов) в моем анализе, поэтому простые 2-граммовые плагины, которые я видел, здесь не будут работать. Мне также нужно иметь возможность удалять стоп-слова из текстовых документов перед подсчетом n-граммы.
Есть идеи от сообщества?
Спасибо
Рон