R проблема - прохождение списка символов через цикл - PullRequest
0 голосов
/ 25 сентября 2019

Я работаю над алгоритмом НЛП на словацком языке, в R. Мне нужно предварительно обработать исходный текст, создать корпус, обучить алгоритм и выбрать наиболее ценные слова из этого текста.Я не знаю, как преобразовать слова, сохраненные в виде списка символов (после создания корпуса), в их бесконечное состояние.Мне нужно выделить этот текст, но после зацикливания каждое слово сохраняется как уникальная строка символов, а не как целое предложение.

В качестве ввода у меня есть корпус, список символов, где целые предложения (заголовки) сохраняются в виде строки символов - по одному на строку.

Примерно так: [1] https://drive.google.com/open?id=16f6XeB2AuxgSDSVWZlwhaoTTmzDnqtg9

После попытки обрезать этот текст с помощью функции ниже, я получаю список символов -много в строке.Мне нужно сгруппировать в одну строку символов, без кавычек и т. Д., Готовых к следующей обработке.

Неправильный формат, смотрите здесь: [2] https://drive.google.com/open?id=116OZvBSsw37IYQHKvaKacGvVf1rScd6F

Вот функцияЯ использую для обозначения:

tab <- read.delim("lemmatization-sk.txt", header=FALSE, stringsAsFactors = 
FALSE, encoding = 'UTF-8')

names(tab) <- c("stem", "term")


stem_list <- function(term) {
    i <- match(term, tab$term)
    if (is.na(i)) {
    stem <- term
    } else {
    stem <- tab$stem[[i]]
  }
  stem
}

Во вкладке есть файл со словарем всех слов попарно - склоняющиеся слова против инфинитива.Мне нужно изменить все предоставленные слова в наборе данных на состояние инфинитива.

Я ожидаю получить обратно список символов, где одна строка будет преобразована в инфинитив в виде одной строки символов, а не многих.Вышеприведенная функция работает, измените форму слов на инфинитив, но сохраните их как одну строку символов в слове.

Как с этим бороться?Нужно ли как-то преобразовывать вывод функции или функция ствола неверна?

...