Как я могу оценить свою технику? - PullRequest
1 голос
/ 18 ноября 2011

Я имею дело с проблемой обобщения текста, т. Е. Учитывая большой объем текста, я хочу найти наиболее представительные «темы» или тему текста.Для этого я использовал различные теоретико-информационные меры, такие как TF-IDF, Residual IDF и Pointwise Mutual Information, чтобы создать «словарь» для моего корпуса.Этот словарь содержит важные слова, упомянутые в тексте.

Я вручную перебрал весь список из 50 000 фраз, отсортированных по их показателю TFIDF, и отобрал 2000 фраз (я знаю! Мне понадобилось 15 часов, чтобы сделать это ...), которые являются основной истиной, то естьважны наверняка.Теперь, когда я использую это в качестве словаря и выполняю простой анализ частоты моего текста и извлекаю фразы top-k, я в основном вижу, что это за предмет, и я согласен с тем, что вижу.

Теперь какя могу оценить этот подход?Здесь нет машинного обучения или классификации.По сути, я использовал некоторые методики НЛП для создания словаря, а использование одного словаря для простого анализа частоты дает мне темы, которые я ищу.Тем не менее, есть ли формальный анализ, который я могу сделать для моей системы, чтобы измерить ее точность или что-то еще?

1 Ответ

1 голос
/ 18 ноября 2011

Я не специалист по машинному обучению, но я бы использовал перекрестная проверка . Если вы использовали, например, 1000 страниц текста, чтобы «обучить» алгоритм (есть «человек в цикле», но без проблем), тогда вы могли бы взять еще несколько сотен тестовых страниц и использовать свой «алгоритм топ-k фраз», чтобы найти « тема "или" предмет "из них. Соотношение тестовых страниц, где вы согласны с результатом алгоритма, дает вам (несколько субъективную) оценку того, насколько хорошо работает ваш метод.

...