Я работаю с ICD (Международная классификация болезней) и ICPM (Международная классификация процедур в медицине). У меня есть фрейм данных с 1 * ICD и несколькими ICPM на строку.Я объединяю их, разделенные " "
.Затем я строю нграммы с n=2
.Хотя ICPM всегда в начале, например:
M6744 58490 50413
Я получаю биграммы, такие как
50413 M6744
Работают ли токенизаторы в двух направлениях?Это не всегда происходит, но это очень часто, и я не могу себе представить, когда и почему это происходит.Я использую
> unnest_tokens(word,text,token="ngrams",n=2, to_lower=FALSE)
Поскольку я строю сети на основе последовательности ICD и связанных путей ICPM, это неверно, поскольку между ICPM и ICD существует петля обратной связи.
Я мог бы решитьпроблема с фильтром до построения сети, но я надеюсь, что есть более простое решение.
Спасибо, Питер