Пример вывода из объекта большого корпуса в R для большого текстового файла - PullRequest
1 голос
/ 25 июня 2019

У меня есть большой объект Корпуса в результате 3 больших файлов (всего> 1 ГБ).

После очистки текста Я хочу от до посмотреть на случайную выборку данных, скажем, 1000 строк на моей консоли, чтобы увидеть, все ли в порядке!

Я не могу найти источник информации о том, как производить выборку данных из класса Корпус в разумные сроки (1 минута).

Я набрал несколько кодов:

writeLines(as.character(docs), con="testing.txt")

head(strwrap(corp))

Существует множество решений для визуализации всей информации, но опять же это занимает слишком много времени.

Худшая часть - единственный способ остановить процессы из-за приведенного выше кода - выключить консоль! Я также посмотрел на corpus_sample. Ближе всего к тому, что я хочу, пришло из str(), который дал первую строку первого документа и все в рекордно короткие сроки.

Этот ответ показался многообещающим , но оказалось, что у корпуса нет documents$texts (corp$documents$texts)

  1. Почему никому не нужна эта функция?
  2. Есть ли способ быстро сэмплировать несколько случайных строк?

P.S

Очень похожий вопрос здесь .

...