Узнав немного больше о функциях и tf-idf, я чувствую себя немного готовым ответить на этот вопрос сейчас.
В самой базовой версии TF-IDF используются словосочетания для построения словарного запаса.Одним из способов получения выражений из нескольких слов является добавление n-граммов высшего порядка в словарь, таких как биграммы и триграммы.Биграммы и триграммы фиксируют выражения, состоящие из двух слов и трех слов, соответственно, и сравнивают их распространенность в документах.
Где вы получаете максимальную отдачу, когда речь идет о n-граммах и выражениях из нескольких слов?Кажется разумным начать с биграмм, поскольку в них больше двухсловных выражений, чем трехсловных.Такие выражения, как «коричневая лиса» и «высокая женщина», станут отличаться от «коричневого», «лиса», «высокий» и «женщина».Конечно, в триграммах и выше есть большое значение (например, «быстрая коричневая лиса»), но это значение, вероятно, уменьшается с ростом n, так как вероятность захвата реальных выражений, а не шума уменьшается.
Мой вопросоднако речь шла не о том, были ли полезны триграммы, а о том, должны ли мы также использовать биграммы, когда решаем использовать униграммы и триграммы.Хотя нет правильного ответа, я не могу вспомнить случай, когда пропуск биграмм и прямой переход к триграммам имеет смысл, то есть вы игнорируете все выражения из двух слов в своих данных.Вы не хотели бы исключать сильную объяснительную силу биграмм, даже если вы хотите добавить n-граммы более высокого порядка.