Я использую алгоритм для лемматизации текстового вектора. На выходе получается файл .txt, который хранится так, как показано на рисунке ниже.
Исходное слово указано в первом столбце, а различные леммы перечислены во втором столбце, за которым следуют некоторые грамматические классификации. Я хочу прочитать это в R, но понятия не имею, как это сделать. Я пробовал различные формы разделителей, но, похоже, ни один из них не работает.
В идеале я хочу, чтобы кадр данных в R выглядел следующим образом, где я читаю только первое вхождение каждой леммы:
Возможно, лучшим вариантом может быть чтение данных, сохранение только первого вхождения (ie. Da da adv), затем сделать что-то вроде текста в столбцах и сохранить только первые два столбца.
Вывод алгоритма лемматизации:
"<da>"
"da" adv
"da" sbu
"da" subst fork
"<dette>"
"dette" det dem nøyt ent
"dette" pron nøyt ent pers 3
"dette" verb inf
"<er>"
"være" verb pres <aux1/perf_part>
"<den>"
"den" det dem fem ent
"den" det dem mask ent
"den" pron mask fem ent pers 3
Требуемая структура:
da da
dette dette
er være
den den