Я делаю некоторый анализ текста с некоторыми свободными текстовыми данными с tidytext. Рассмотрим примеры предложений:
"The quick brown fox jumps over the lazy dog"
"I love books"
Мой подход с использованием токенов с использованием tidytext:
unigrams = tweet_text %>%
unnest_tokens(output = word, input = txt) %>%
anti_join(stop_words)
Результаты следующие:
The
quick
brown
fox
jumps
over
the
lazy
dog
Теперь мне нужно присоединиться к каждой униграмме вернуться к исходному предложению:
"The quick brown fox jumps over the lazy dog" | The
"The quick brown fox jumps over the lazy dog" | quick
"The quick brown fox jumps over the lazy dog" | brown
"The quick brown fox jumps over the lazy dog" | fox
"The quick brown fox jumps over the lazy dog" | jumps
"The quick brown fox jumps over the lazy dog" | over
"The quick brown fox jumps over the lazy dog" | the
"The quick brown fox jumps over the lazy dog" | lazy
"The quick brown fox jumps over the lazy dog" | dog
"I love books" | I
"I love books" | love
"I love books | books
Я немного застрял. Решение должно масштабироваться на тысячи предложений. Я думал, что такая функция может быть родной для tidytext, но еще ничего не нашел.