Как мне назначить мой SOTU dfm для президентов Уилсона, а затем в Quanteda? - PullRequest
0 голосов
/ 16 апреля 2019

Я работаю с SOTU корпусом quanteda.corpora, и мне нужно настроить его на подмножество, чтобы взглянуть примерно на прошлый век речей SOTU. Я из ТМ, но я не очень хорошо знаком с управлением объектами dfm.

Я научился предварительно обрабатывать корпус в формате dfm, но я не уверен, что делать дальше. Это то, что у меня есть сейчас. Насколько я понимаю, этот кодекс должен включать в мой корпус только те документы, которые были доставлены после 1913 года.

library(quanteda)
library(quanteda.corpora)
dfmat_sotu <- dfm(data_corpus_sotu, tolower = TRUE, remove = stopwords("english"), remove_numbers = TRUE, remove_punct = TRUE)
dfmat_sotu <- dfm_wordstem(dfmat_sotu, language = quanteda_options("language_stemmer"))
dfmat_sotu <- dfm_subset(dfmat_sotu, Date > 1913-12-02)
wf_sotu <- textmodel_wordfish(dfmat_sotu)

textplot_scale1d(wf_sotu)

Проблема в том, что, когда я запускаю этот код, а также wordfish, становится ясно, что я не подгруппировал корпус, как предполагалось - он, похоже, включает в себя речи только с 1978 года и позже. Что мне нужно сделать по-другому?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...