Я работаю над алгоритмом НЛП на словацком языке, в R. Мне нужно предварительно обработать исходный текст, создать корпус, обучить алгоритм и выбрать наиболее ценные слова из этого текста.Я не знаю, как преобразовать слова, сохраненные в виде списка символов (после создания корпуса), в их бесконечное состояние.Мне нужно выделить этот текст, но после зацикливания каждое слово сохраняется как уникальная строка символов, а не как целое предложение.
В качестве ввода у меня есть корпус, список символов, где целые предложения (заголовки) сохраняются в виде строки символов - по одному на строку.
Примерно так: [1] https://drive.google.com/open?id=16f6XeB2AuxgSDSVWZlwhaoTTmzDnqtg9
После попытки обрезать этот текст с помощью функции ниже, я получаю список символов -много в строке.Мне нужно сгруппировать в одну строку символов, без кавычек и т. Д., Готовых к следующей обработке.
Неправильный формат, смотрите здесь: [2] https://drive.google.com/open?id=116OZvBSsw37IYQHKvaKacGvVf1rScd6F
Вот функцияЯ использую для обозначения:
tab <- read.delim("lemmatization-sk.txt", header=FALSE, stringsAsFactors =
FALSE, encoding = 'UTF-8')
names(tab) <- c("stem", "term")
stem_list <- function(term) {
i <- match(term, tab$term)
if (is.na(i)) {
stem <- term
} else {
stem <- tab$stem[[i]]
}
stem
}
Во вкладке есть файл со словарем всех слов попарно - склоняющиеся слова против инфинитива.Мне нужно изменить все предоставленные слова в наборе данных на состояние инфинитива.
Я ожидаю получить обратно список символов, где одна строка будет преобразована в инфинитив в виде одной строки символов, а не многих.Вышеприведенная функция работает, измените форму слов на инфинитив, но сохраните их как одну строку символов в слове.
Как с этим бороться?Нужно ли как-то преобразовывать вывод функции или функция ствола неверна?