Среднее количество символов в комментарии YouTube - PullRequest
0 голосов
/ 26 апреля 2019

Мне нужно рассчитать среднее количество символов в спам-комментариях и обычных комментариях.

Я новичок в R, и поэтому этот вопрос может быть простым. Я получил задание подсчитать среднее количество символов в спаме youtubecomments. Я уже пытался использовать функцию nchar, но получил подсчет 977, и поэтому я думаю, что не использовал правильную. Какая будет правильная функция?

Набор данных содержит много разных спам-комментариев и имеет структуру, показанную на рисунке.

nchar(HAMComments, type = "chars", allowNA = FALSE, keepNA = NA)

SPAM Youtube comments strucutre

Буду очень благодарен за ответ!

Ответы [ 2 ]

0 голосов
/ 26 апреля 2019

Не уверен, в чем проблема, что-то вроде этого должно работать:

df <- data.frame(comment = c("Hi I am a bot", "clau6io_HH is in the house", "stackoverflow"),
                          var2 = 1:3)


nchar(as.character(df$comment))
#> [1] 13 26 13
0 голосов
/ 26 апреля 2019

Stringr поможет:

library(stringr)

stringr::str_count(HAMComments)

Рассчитать среднее значение:

mean(stringr::str_count(HAMComments), na.rm = TRUE)

Stringr предоставляет векторизованную функцию для подсчета букв в комментарии.Небольшой совет: позаботьтесь о кодировке, есть ошибки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...