добиться токенизации в формате TXT с TIDYTEXT - PullRequest
0 голосов
/ 11 мая 2018

Я пытаюсь работать с tidytext, с файлом .txt с именем: texto_revision со следующей структурой:

# A tibble: 254 x 230
   X1     X2     X3     X4    X5    X6    X7    X8    X9    X10   X11   X12   X13   X14   X15   X16  
   <chr>  <chr>  <chr>  <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 la     expro~ de     la    tier~ ocur~ con   frec~ dura~ el    proc~ rapi~ de    la    urba~ en   
 2 como   las    difer~ en    el    moti~ del   cons~ cons~ en    esta~ unid~ y     china afec~ la   
 3 las    desig~ etnic~ en    los   patr~ de    cons~ (pre~ de    vest~ joye~ auto~ han   sido  obje~
 4 este   artic~ exami~ el    impa~ de    vari~ dife~ indi~ en    la    prop~ de    los   cons~ a    
 5 este   artic~ inves~ la    infl~ de    los   regi~ poli~ sobre la    impo~ 
 #   ...

При попытке использовать формат unnest_tokens со следующим кодом:

library(tidytext)

texto_revision %>%
    unnest_tokens(word, text)

Я получаю следующую ошибку:

Ошибка: Ошибка в check_input (x): Входные данные должны быть символьным вектором любой длины или списком символов векторы, каждый из которых имеет длину 1.

Чтобы попытаться исправить ошибку и продолжить работу с токенизацией, я попытался преобразовать текст во фрейм данных со следующим кодом:

text_df <- as.data.frame(texto_revision)

но я все еще получаю следующую ошибку

Ошибка в check_input (x): Входные данные должны быть символьным вектором любой длины или списком символов векторы, каждый из которых имеет длину 1.

Ответы [ 2 ]

0 голосов
/ 11 мая 2018

Похоже, ваш текст уже токенизирован , поэтому вам просто нужно растопить фрейм данных , чтобы получить желаемую структуру данных.Например,

library(tidyverse)

texto_revision %>%
  gather(document, word)

См. документы для tidyr::gather().

0 голосов
/ 11 мая 2018

Обратите внимание, что синтаксис для unnest_tokens имеет вид "unnest_tokens ( [имя нового столбца] , [ссылочный столбец] ." Похоже, в вашей таблице / столбце нет "текстового" столбцакадр. Ниже приведен пример игрушки для иллюстрации:

State <- as.character(c("SC is in the South","NC is in the south", 
                        "NY is in  the north"))
DF <- data.frame(State, stringsAsFactors = FALSE)

> DF
               State
 1 SC is in the South
 2 NC is in the south
 .....
 DF %>% unnest_tokens(word,State)

     word
1      sc
1.1    is
1.2    in
1.3   the
....
...