Ошибка в unnest_tokens.data.frame (., Entity, text, token = tokenize_scispacy_entities,: ожидаемый вывод функции токенизации в виде списка длиной 100
unnest_tokens () хорошо работает для образца мало наблюдений, но не на всем наборе данных.
https://github.com/dgrtwo/cord19 Воспроизводимый пример:
library(dplyr)
library(cord19)
library(tidyverse)
library(tidytext)
library(spacyr)
spacy_initialize("en_core_sci_sm")
tokenize_scispacy_entities <- function(text) {
spacy_extract_entity(text) %>%
group_by(doc_id) %>%
nest() %>%
pull(data) %>%
map("text") %>%
map(str_to_lower)
}
paragraph_entities <- cord19_paragraphs %>%
select(paper_id, text) %>%
sample_n(10) %>%
unnest_tokens(entity, text, token = tokenize_scispacy_entities)