что означает аргумент коллапса в функции unnest_tokens в R - PullRequest
0 голосов
/ 06 августа 2020
Например,

, я знаю, что значение по умолчанию для collapse в unnest_tokens - ИСТИНА. Но я не понимаю, что на самом деле означает аргумент коллапса. Я прочитал документацию R, но все еще запутался. Вот пример, который я написал. Будет ли разница для возвращаемого значения, если я изменю значение collapse на TRUE?

bigram_freq <- tw %>%
  unnest_tokens(bigram,text,token = "ngrams", n=2, collapse = FALSE)

1 Ответ

0 голосов
/ 18 августа 2020

Аргумент collapse определяет, как вводимый текст обрабатывается в новых строках:

Следует ли сначала комбинировать текст с символами новой строки, если лексемы (например, предложения или абзацы) занимают несколько строк.

Оцените разницу в поведении с collapse = TRUE по сравнению с collapse = FALSE:

library(tidyverse)
library(tidytext)

emily <- tibble(text = c("Because I could not stop for Death -",
                         "He kindly stopped for me -"))

## notice the bigram "death he"
emily %>%
  unnest_tokens(word, text, token = "ngrams", n = 2, collapse = TRUE)
#> # A tibble: 11 x 1
#>    word          
#>    <chr>         
#>  1 because i     
#>  2 i could       
#>  3 could not     
#>  4 not stop      
#>  5 stop for      
#>  6 for death     
#>  7 death he      
#>  8 he kindly     
#>  9 kindly stopped
#> 10 stopped for   
#> 11 for me

## notice no "death he"
emily %>%
  unnest_tokens(word, text, token = "ngrams", n = 2, collapse = FALSE)
#> # A tibble: 10 x 1
#>    word          
#>    <chr>         
#>  1 because i     
#>  2 i could       
#>  3 could not     
#>  4 not stop      
#>  5 stop for      
#>  6 for death     
#>  7 he kindly     
#>  8 kindly stopped
#>  9 stopped for   
#> 10 for me

Создано 18.08.2020 пакетом REPEX (v0.3.0.9001)

...