Ранее я задавал аналогичный вопрос по этой теме, в итоге я получил несколько решений, которые работали, одно на основе фильтров Блума + ngrams, другое на основе хеш-таблиц + ngrams.Оба решения хорошо работают с небольшими наборами данных (<1000 текстов, обычно твитов), но время вычислений экспоненциально выросло, что означает, что выполнение 10000 может занять часы. </p>
В настоящее время я работаю в Ruby и, возможно, это проблема, ноЕсть ли другие решения или подходы, которые я мог бы попытаться решить эту проблему?