H2O.ai import_file не выглядит как ленивая оценка, что он делает? - PullRequest
0 голосов
/ 20 марта 2019

Что именно делает разбор данных H2O.ai?

Import h2o
h2o.init()
df = h2o.import_file(path=myfilepath)

Когда я запускаю приведенный выше код, я получаю следующий вывод, который занимает некоторое время ...

Parse progress: [###################################] 100%

КогдаЯ запускаю это на 2 ГБ данных, моя память увеличивается примерно на 2 ГБ.Я думал, что H2O.ai должен был использовать ленивую оценку?Кажется, что почти вся информация хранится в памяти (может быть, даже весь набор данных), и, очевидно, это не ленивая оценка, потому что для ее запуска требуется некоторое время.

Документация H2O.ai также не очень полезна.

http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/h2o.html#h2o.import_file

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html

Кто-нибудь точно понимает, что здесь происходит?

1 Ответ

2 голосов
/ 20 марта 2019

Это не ленивая оценка.

Он считывает данные и сохраняет их в хранилище значений ключей в сжатом виде в сжатом столбце.

Вот хорошая картина, описывающая весь процесс:

...