Как работает извлечение ключевых слов? - PullRequest
0 голосов
/ 29 ноября 2018

Я проверил извлечение ключевых слов из службы Natural Language Understanding IBM со следующим текстом:

Desarrollo PDA.Аюстес КПК.Нуэво по модулю КПК.Аюстес по модулю КПК.Нет синкрониза, кпк.Ошибка по модулю КПК.

И я получил следующий ответ:

  • по модулю кпк с релевантностью 98,31
  • по модулю кпк с релевантностью 64,44%
  • nuevo modulo pda с релевантностью 64.34

Теперь мой вопрос: почему релевантность ключевого слова "modulo pda" составляет 98,31%, а не просто "PDA" с более высокой релевантностью ?.Я всюду искал, как IBM работает безрезультатно.

1 Ответ

0 голосов
/ 30 ноября 2018

Фактический алгоритм, который использовался для извлечения и оценки ключевых слов, был бы фирменным фирменным рецептом, я не ожидаю, что они сделают его публичным.Но вы можете найти множество исследовательских работ на эту тему, но обычно конечные коммерческие продукты содержат различные методы для достижения наилучших результатов.

Вы можете сравнить различные службы NLU из разных поставщиков, таких как IBM, Google, Amazon и сравнить результаты.

Специально для вашего запроса вы пытаетесь извлечь ключевые слова или темы из одного документа.КПК встречается в каждом предложении вашего документа.Если мы применяем простую технику, такую ​​как TF-IDF, где каждое предложение является документом, TF-IDF = 0 для слова PDA, поскольку оно встречается в каждом предложении и становится неактуальным, поскольку не добавляет информацию к общей теме или важности документа.

...