При использовании триграмм в tf-idf следует ли включать униграммы и биграммы? - PullRequest
0 голосов
/ 17 сентября 2018

Когда я использовал биграммы, я добавлял список биграмм к униграмме и использовал это в качестве своего корпуса. С помощью триграмм я добавил триграммы в униграммы, но оставил биграммы.

Это правильный подход, или было бы лучше также включить биграммы, если я хочу включить триграммы? Должен ли процесс вместо этого быть: униграммы -> униграммы + биграммы -> униграммы + биграммы + триграммы?

1 Ответ

0 голосов
/ 31 октября 2018

Узнав немного больше о функциях и tf-idf, я чувствую себя немного готовым ответить на этот вопрос сейчас.

В самой базовой версии TF-IDF используются словосочетания для построения словарного запаса.Одним из способов получения выражений из нескольких слов является добавление n-граммов высшего порядка в словарь, таких как биграммы и триграммы.Биграммы и триграммы фиксируют выражения, состоящие из двух слов и трех слов, соответственно, и сравнивают их распространенность в документах.

Где вы получаете максимальную отдачу, когда речь идет о n-граммах и выражениях из нескольких слов?Кажется разумным начать с биграмм, поскольку в них больше двухсловных выражений, чем трехсловных.Такие выражения, как «коричневая лиса» и «высокая женщина», станут отличаться от «коричневого», «лиса», «высокий» и «женщина».Конечно, в триграммах и выше есть большое значение (например, «быстрая коричневая лиса»), но это значение, вероятно, уменьшается с ростом n, так как вероятность захвата реальных выражений, а не шума уменьшается.

Мой вопросоднако речь шла не о том, были ли полезны триграммы, а о том, должны ли мы также использовать биграммы, когда решаем использовать униграммы и триграммы.Хотя нет правильного ответа, я не могу вспомнить случай, когда пропуск биграмм и прямой переход к триграммам имеет смысл, то есть вы игнорируете все выражения из двух слов в своих данных.Вы не хотели бы исключать сильную объяснительную силу биграмм, даже если вы хотите добавить n-граммы более высокого порядка.

...