R эквивалент Python's Dask - PullRequest
0 голосов
/ 27 июня 2018

Есть ли эквивалентный пакет в R для Python dask? Специально для запуска алгоритмов машинного обучения для наборов данных с большим объемом памяти на одном компьютере.

Ссылка на страницу Python Dask: https://dask.pydata.org/en/latest/

с сайта Dask:

Dask изначально масштабируется Python

Dask обеспечивает расширенный параллелизм для аналитики, обеспечивая производительность в масштабе для инструментов, которые вы любите

Планировщики Dask масштабируются до кластеров из тысячи узлов и их алгоритмы были протестированы на некоторых крупнейших суперкомпьютерах в мире.

Но вам не нужен массивный кластер, чтобы начать. Dask отправляет с Планировщики предназначены для использования на персональных машинах. Многие люди используют Dask сегодня, чтобы масштабировать вычисления на своем ноутбуке, используя несколько ядер для вычисления и их диск для избыточного хранения.

Ответы [ 2 ]

0 голосов
/ 14 августа 2018

Я занимаюсь разработкой простой библиотеки под названием disk.frame, которая потенциально может принять dask один день. Он использует формат файла fst и data.table для манипулирования большими объемами данных на диске. На данный момент у него нет кластерного модуля, но, учитывая, что он использует future в фоновом режиме, а future может иметь кластерный сервер, это возможно в будущем.

Существует также multidplyr в работах Хэдли и Ко.

В настоящее время я успешно использовал disk.frame для манипулирования наборами данных с сотнями миллионов строк данных и сотнями столбцов.

Если вы желаете заглянуть за пределы R, то JuliaDB.jl в экосистеме Julia - это то, на что стоит обратить внимание.

0 голосов
/ 28 июня 2018

Как правило, R в своем родном использовании работает с данными в ОЗУ. В зависимости от вашей операционной системы, когда R требует больше, чем доступная память, части выгружаются на диск. Обычный результат - побои, которые остановят вашу машину. В Windows вы можете смотреть диспетчер задач и плакать.

Есть несколько пакетов, которые обещают управлять этим процессом. RevoScaleR от Microsoft является одним. Он не является открытым исходным кодом и недоступен в CRAN. Я скептически отношусь к программным дополнениям к R, как к гаджетам с болтовым креплением, которые обещают лучшую экономию топлива в вашем автомобиле. Всегда есть компромиссы.

Простой ответ заключается в том, что в R. нет бесплатного обеда. Загрузка не будет такой же эффективной, как некоторые новые модули DIMM для вашей машины. Вам лучше сначала посмотреть на свой код. Если это не сработает, наймите конфигурацию правильного размера в облаке.

...