Я экспериментирую с Скрытое распределение Дирихле для устранения неоднозначности и назначения темы, и я ищу совет.
- Какая программа является «лучшей», где лучшая - это какая-то комбинация из самых простых в использовании, лучшей предварительной оценки, быстрой
- Как мне учесть мою интуицию по поводу актуальности. Допустим, я знаю, что знаю, что некоторые элементы в корпусе действительно относятся к одной категории, как и все статьи одного и того же автора. Могу ли я добавить это в анализ?
- Какие-нибудь неожиданные ловушки или советы, которые я должен знать перед тем, как приступить к работе?
Я бы предпочел, чтобы R или Python были для любой программы, но я ожидаю (и принимаю), что буду иметь дело с C.