Я знаю, что это не новая концепция в R, и я просматривал представление задач по высокопроизводительным и параллельным вычислениям. С учетом сказанного я задаю этот вопрос с точки зрения невежества, поскольку у меня нет формального обучения информатике и я полностью самоучка.
Недавно я собрал данные из API потоковой передачи Twitter, и в настоящее время необработанный JSON находится в текстовом файле размером 10 ГБ. Я знаю, что были большие успехи в адаптации R для обработки больших данных, так как бы вы решили эту проблему? Вот лишь несколько задач, которые я хочу выполнить:
- Считать и обработать данные во фрейм данных
- Базовый описательный анализ, включая анализ текста (часто используемые термины и т. Д.)
- 1010 * Заговор *
Возможно ли для этого использовать R целиком, или мне придется написать какой-нибудь Python для анализа данных и выбросить их в базу данных, чтобы взять случайные выборки, достаточно маленькие, чтобы поместиться в R.
Проще говоря, любые советы или указатели, которые вы можете предоставить, будут высоко оценены. Опять же, я не буду обижаться, если вы опишите решения на уровне 3-го класса.
Заранее спасибо.