У меня есть набор данных с примерно 100 000 твитов и их оценками. В исходном наборе данных есть только две колонки, одна для твитов и одна для их оценок настроений.
Я пытаюсь создать словарь данных для него с помощью пакета dataMeta. Вот код, который у меня есть на данный момент:
#Data Dictionary
var_desc<-c("Sentiment Score 0 for Negative sentences and 4 for Positive sentences","The tweets collected")
var_type<-c(0,1)
#Creating the Linker Data Frame
linker <- build_linker(tweets_train, variable_description = var_desc, variable_type = var_type)
linker
#Build the data dictionary
dict<-build_dict(my.data = tweets_train,linker=linker,option_description = NULL, prompt_varopts = F)
kable(dict,format="html",caption="Data dictionary for the Training dataset")
Моя проблема в словаре данных, который я предоставил Имя переменной и Описание переменной, но я думаю, что в столбце Параметры переменной он пытается напечатать все 100 000 твитов, которых я хочу избежать. Могу ли я установить этот столбец слишком вручную? Может ли опция option_description в функции build_dict помочь?
Я пытался получить представление об этом из Интернета, но безрезультатно. Вот ссылка, по которой я следовал до сих пор:
https://cran.r -project.org / веб / пакеты / dataMeta / виньетки / dataMeta_Vignette.html
Это первый раз, когда я пытаюсь создать словарь данных и, следовательно, бороться. Любые предложения будут чрезвычайно признательны. Заранее спасибо.