Что доступно с точки зрения библиотек / программного обеспечения с открытым исходным кодом для обработки и классификации естественного языка? У меня есть база данных, полная строк, которые представляют собой пользовательские описания конкретного элемента. Я хотел бы классифицировать эти слова, чтобы отсеять бесполезные и сделать обоснованное предположение относительно того, к какой категории относится элемент (например, технология, спорт, музыка).
Я понимаю, что это довольно специфический запрос, и мои знания по обработке естественного языка очень ограничены. Мне интересно, что было бы лучшим и, если возможно, наиболее вычислительно дешевым способом делать подобные прогнозы?
Я бы предпочел сделать это в Ruby, однако Python или Java также приемлемы.