Как просмотреть токены в Quanteda после применения словаря - PullRequest
1 голос
/ 06 марта 2020

Я впервые задаю здесь вопрос, поэтому прошу прощения, если я не обращаюсь с ним должным образом. Я использовал пакет R Quanteda для анализа текстовых документов.

Моя проблема в том, что я хотел бы видеть текст после того, как применил разработанный мной словарь. Чтобы применить словарь, я разбил на части токен, но потом не смог найти функцию или метод, который позволял бы мне видеть размеченный текст. Я посмотрел на веб-сайт Quanteda и шпаргалку, но не смог найти никакого решения. В основном это важная часть моего кода:

tokens_text_dict <- tokens_text %>% 
  tokens_lookup(dict_Info_priv, exclusive = FALSE)

РЕДАКТИРОВАТЬ: Код от комментария к вопросу перемещен:

text1 <- "a b c"
corpus1 <- corpus(text1)
tokens <- tokens(corpus1)
dict1 <- dictionary(list(A = "a")
tokens1_dict <- tokens_text %>% 
   tokens_lookup(dict1, exclusive = FALSE)

Я ищу команду, которая выдала бы "A b c ", который теперь должен быть в tokens1_dict.

Буду очень признателен за помощь!

С наилучшими пожеланиями

Янник

1 Ответ

2 голосов
/ 07 марта 2020

Существует два простых способа просмотра ваших токенов. В Quanteda v2 есть опции для печати объекта токенов на консоли. (См. ?`print-quanteda`)

> print(tokens1_dict, max_ndoc = -1, max_ntok = -1)
Tokens consisting of 1 document.
text1 :
[1] "A" "b" "c"

Или можно использовать функцию View(), которая вызывает метод отображения для проверки списка (из которых объект токенов является специальным типом). Это действие также запускается в RStudio, если щелкнуть имя объекта на панели Environment.

> View(tokens1_dict)

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...