Tidytext R ngrams n = 2 странное поведение - PullRequest
0 голосов
/ 04 марта 2019

Я работаю с ICD (Международная классификация болезней) и ICPM (Международная классификация процедур в медицине). У меня есть фрейм данных с 1 * ICD и несколькими ICPM на строку.Я объединяю их, разделенные " ".Затем я строю нграммы с n=2.Хотя ICPM всегда в начале, например:

M6744 58490 50413

Я получаю биграммы, такие как

50413 M6744

Работают ли токенизаторы в двух направлениях?Это не всегда происходит, но это очень часто, и я не могу себе представить, когда и почему это происходит.Я использую

> unnest_tokens(word,text,token="ngrams",n=2, to_lower=FALSE)

Поскольку я строю сети на основе последовательности ICD и связанных путей ICPM, это неверно, поскольку между ICPM и ICD существует петля обратной связи.

Я мог бы решитьпроблема с фильтром до построения сети, но я надеюсь, что есть более простое решение.

Спасибо, Питер

...