Question

У меня есть набор данных "X", содержащий около 8 миллионов наблюдений и переменные из 5 символов - назовите их A, B, C, D и E. Я пытаюсь вычислить статистику jaro-winkler между D и E с помощью RecordLinkage пакет:

library(RecordLinkage)
X$jw = jarowinkler(X$D, X$E)

Проблема в том, что все больше и больше памяти используется, пока компьютер просто не зависает. Есть ли способ автоматически выполнять обработку в «кусках», без необходимости предварительно вручную разбивать X на достаточно малые размеры и работать с отдельными подмножествами?

Другими словами, есть ли какая-нибудь встроенная функция, которая выполняет разбиение и обработку без необходимости делать это заранее?

richiemorrisroe · Answer 1 · 18 сентября 2011

Ну, возможно, самым простым решением было бы использование аргумента nrows для read.table (или CSV или что-то еще). Установите nrows на небольшое значение, а затем переберите сегменты, удаляя ненужные объекты и вызывая gc() по ходу.

Обработка данных кусками

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка данных кусками

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов