Частоты люценовых униграмм и биграмм - PullRequest
0 голосов
/ 27 августа 2010

Я сохраняю в нграммах индекса Люцена до уровня 3. Когда я читаю индекс и вычисляю оценку терминов и нграмм, я получаю результаты, подобные этому

TERM              FREQUENCY....      TFIDF
minority           25           16.512926
minority report 24           16.179296
report           27           13.559037
cruise           12           11.440491
tom cruise        7            8.737819

Итак, если мы посмотрим на пример "Том Круиз", вместе, как биграмм, это происходит 7 раз. И из этого мы видим, что «круиз» происходит один раз 5 раз. Поэтому я не хочу такого дублирования частоты, потому что один только «круиз» набрал больше очков, чем «круиз Тома», что не соответствует действительности, поскольку он содержится внутри.

Извините, если я плохо объясню, я не знаю, как назвать этот тип оценки, если кто-то знает, чтобы объяснить эти технические слова, пожалуйста, отредактируйте.

Спасибо

1 Ответ

3 голосов
/ 28 августа 2010

Мне кажется, я ответил на аналогичный вопрос, который вы задали некоторое время назад.IIUC, вы хотите, чтобы выделялись более важные термины, и вы чувствуете, что «круиз Тома» важнее, чем «круиз».

Это похоже на проблему в вашей модели данных.TFIDF, кажется, не так, как вы хотите.Вы можете попробовать построить языковую модель, как описано в главе Питера Норвига "Красивые данные" .

Суть:

  • Рассчитайте вероятность для каждой униграммы, биграммы и триграммы (вам потребуется сглаживание или отступление, как описано в документе).
  • Выбирайте термины скорее по вероятности, чем по TFIDF.

Подход языковой модели к извлечению ключевой фразы , похоже, делает подобные вещи.Некоторые альтернативы: Kea (который использует TFIDF в качестве одной функции из нескольких) и Работа по извлечению ключевой фразы Питера Терни .

...