В прошлом я получал помощь в создании tf-idf для одного из моих документов и получил вывод, который хотел (см. Ниже).
TagSet <- data.frame(emoticon = c("?","?","?","?","?"),
stringsAsFactors = FALSE)
TextSet <- data.frame(tweet = c("?Sharp, adversarial⚔️~pro choice?~ban Pit Bulls☠️~BSL?️~aberant psychology?~common sense?~the Piper will lead us to reason?~sealskin woman?",
"Blocked by Owen, Adonis. Abbott & many #FBPE? Love seaside, historic houses & gardens, family & pets. RTs & likes/ Follows may=interest not agreement ??",
"???????? #healthy #vegetarian #beatchronicillness fix infrastructure",
"LIBERTY-IDENTITARIAN. My bio, photo at Site Info. And kindly add my site to your Daily Favorites bar. Thank you, Eric",
"??I #BackTheBlue for my son!?? Facts Over Feelings. Border Security saves lives! #ThankYouICE",
"????? I play Pedal Steel @CooderGraw & #CharlieShafter???? #GoStars #LiberalismIsAMentalDisorder",
"#Englishman #Londoner @Chelseafc ?️♂️ ?? ? ???????????",
"F*** the Anti-White Agenda #Christian #Traditional #TradThot #TradGirl #European #MAGA #AltRight #Folk #Family #WhitePride",
"??❄️Do not dwell in tbaconhe past, do not dream of the future, concentrate the mind on the present moment.??️❄️",
"Ordinary girl in a messed up World | Christian | Anti-War | Anti-Zionist | Pro-Life | Pro ?? | ??Hello intro on the Minds Link |"),
stringsAsFactors = FALSE)
library(dplyr)
library(quanteda)
tweets_dfm <- dfm(TextSet$tweet) # convert to document-feature matrix
tweets_dfm %>%
dfm_select(TagSet$emoticon) %>% # only leave emoticons in the dfm
dfm_tfidf() %>% # weight with tfidf
convert("data.frame") # turn into data.frame to display more easily
# document ? ? ? ? ?
# 1 text1 1.39794 1 0 0 0
# 2 text2 0.00000 0 1 0 0
# 3 text3 0.00000 0 0 0 0
# 4 text4 0.00000 0 0 0 0
# 5 text5 0.00000 0 0 0 0
# 6 text6 0.69897 0 0 0 0
# 7 text7 0.00000 0 0 1 1
# 8 text8 0.00000 0 0 0 0
# 9 text9 0.00000 0 0 0 0
# 10 text10 0.00000 0 0 0 0
Но мне нужно немного помогите с вычислением tf-idf за единичный термин. То есть, как мне точно получить значение tf-idf для каждого члена из матрицы?
# terms tfidf
# ? #its tfidf the correct way
# ? #its tfidf the correct way
# ? #its tfidf the correct way
# ? #its tfidf the correct way
# ? #its tfidf the correct way
Я уверен, что это не то же самое, что добавить все tf-idf для термина из его столбца матрицы и разделить на документы, где он появился. И это будет значение для этого термина.
Я посмотрел на несколько источников, таких как здесь, https://stats.stackexchange.com/questions/422750/how-to-calculate-tf-idf-for-a-single-term, но этот парень спрашивает что-то еще полностью из того, что я прочитал.
В настоящее время у меня слабая терминология по анализу и анализу текста. Поэтому я заранее извиняюсь за глупость.