У меня есть большой объект Корпуса в результате 3 больших файлов (всего> 1 ГБ).
После очистки текста Я хочу от до посмотреть на случайную выборку данных, скажем, 1000 строк на моей консоли, чтобы увидеть, все ли в порядке!
Я не могу найти источник информации о том, как производить выборку данных из класса Корпус в разумные сроки (1 минута).
Я набрал несколько кодов:
writeLines(as.character(docs), con="testing.txt")
head(strwrap(corp))
Существует множество решений для визуализации всей информации, но опять же это занимает слишком много времени.
Худшая часть - единственный способ остановить процессы из-за приведенного выше кода - выключить консоль! Я также посмотрел на corpus_sample
. Ближе всего к тому, что я хочу, пришло из str()
, который дал первую строку первого документа и все в рекордно короткие сроки.
Этот ответ показался многообещающим , но оказалось, что у корпуса нет documents$texts
(corp$documents$texts
)
- Почему никому не нужна эта функция?
- Есть ли способ быстро сэмплировать несколько случайных строк?
P.S
Очень похожий вопрос здесь .