Возможно, это очень сложный вопрос, но в любом случае вот мой вопрос.
Мне интересно, как лучше определить тему разговора? Разговор происходит через IRC. В прошлом я писал чат-ботов, которые интерпретировали тему довольно хорошо, но не так точно, как хотелось бы.
В прошлом мне приходилось составлять списки распространенных слов, таких как "the" и "a", а затем отфильтровывать их из массива тем. Я не знаю, если это правильный способ сделать это.
Мне интересно, есть ли какой-нибудь частотный алгоритм, который позволил бы мне определить, какое слово является текущей темой для разговора.
Будем весьма благодарны за любые предложения относительно того, как этого можно достичь. Спасибо.