Анализ твитов в RStudio:
Мой CSV-файл содержит 4 000 000 твитов с пятью столбцами: screen_name, text, creation_at, favour_count и retweet_count.
Я пытаюсь определить частоту хэштегов используя следующие коды, однако он работает слишком медленно в течение нескольких дней и иногда происходит сбой RStudio.
mydata %>%
unnest_tokens(word, text, token ="tweets") %>%
anti_join(stop_words, by= "word")
Я использовал другие подходы для обработки больших данных в R, такие как: https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/ или https://spark.rstudio.com/guides/textmining/ и библиотека Spark: https://spark.rstudio.com/guides/textmining/. Ни один из них не работает для меня.
В Spark я делаю следующее, но RStudio не может скопировать мой набор данных в Spark. Я вижу, что "Spark работает" в моем RStudio даже в течение одного дня без копирования моего набора данных в Spark.
Подключение к кластеру Spark:
spark_conn <- spark_connect("local")
Копирование track_metadata в Spark:
track_metadata_tbl <- copy_to(spark_conn, my_database)
Есть ли у вас какие-либо предложения / инструкции / ссылки, которые помогли бы мне проанализировать мои данные?
Мой ноутбук - Ma c Процессор: 2,9 ГГц Dual- Память Intel Core i5: 8 ГБ, 2133 МГц, LPDDR3