Я прочитал серию CSV-файлов. Каждый содержит историю данных транзакции для другого пользователя....
У меня есть большой набор данных (50 миллионов строк), в котором мне нужно выполнить некоторые...
Я пытаюсь использовать groupby() на dask dataframe, но получаю ValueError , упомянутую в заголовке,...
Есть ли способ удалить строки, используя условие регулярных выражений в кадре данных dask? У меня...
Я пытаюсь нормализовать массив dask с уменьшением самого себя (например, b = a / a.sum() с a и b,...
Как разделить CSV-файл на несколько файлов с помощью Dask? Нижеследующий код, кажется, записывает...
Я распространяю вычисления некоторых функций, используя Dask. Мой общий макет выглядит так: from...
Я использую Dask Distributed и пытаюсь создать кадр данных из CSV, хранящегося в HDFS.Я полагаю,...
Я использую пример кода для вычисления NDVI из Dask.Ссылка на код выглядит следующим образом. код...
Как и в случае агрегирования, divk pivot_table уменьшает количество разделов до 1, что приводит к...
Я хочу извлечь только 50 строк из Dask Dataframe, но не могу. Наконец, я хочу создать новый фрейм...
Следующий код предназначен для чтения простого файла .csv с четырьмя столбцами со строковыми...
У меня ошибка при чтении файла с dask, который работает с пандами: import dask.dataframe as dd...
Я хочу создать новый столбец из существующего столбца, применяя функцию. Если я пытаюсь...
Я получаю сообщение об ошибке, когда пытаюсь сохранить dask dataframe в csv.Короче говоря, у меня...
Мне нужно создать мультииндекс для dask, объединив два массива (предпочтительно dask). Я нашел...
Когда я создаю список отложенных задач и отправляю их для вычисления с scheduler = 'процессы',...
Я получаю ValueError: Lock objects should only be shared between processes through inheritance при...
это мой первый пост на stackoverflow, и я надеюсь, что выбрал правильную категорию.Итак, вот моя...
Я читаю в 64 сжатых CSV-файлах (вероятно, 70-80 ГБ) в один фрейм данных dask, затем выполняю...
Я преобразую 10 больших файлов фиксированной ширины (в среднем 19 ГБ) в паркет.Я делаю это,...
Я обновляю свои параметры каждую итерацию пакетом из очень большого файла.Но прежде чем я сделаю...
Я работаю над алгоритмом, который использует Dask, чтобы избежать ошибок памяти, так как данные...
У меня есть фрейм данных, в котором хранятся журналы транзакций. Каждый журнал имеет свой хэш...
Из того, что я обнаружил, есть еще 1 такой вопрос ( Ускоренная вложенная перекрестная проверка ),...