Итак, я хочу проверить, содержит ли мой текст слово «ребенок», а не любое другое слово, содержащее...
Я создаю одно приложение, в котором я получу потоковые данные (csv) из kafka и запишу их в hdfs....
У меня есть: Большой кадр данных (формат паркета, 100 000 000 строк, размер 4,5 ТБ), содержащий...
У меня большой фрейм данных (чуть больше 20G), я пытаюсь сохранить его как объект pickle для...
У меня есть файлы паркета, и я хочу прочитать их на основе динамических столбцов, поэтому возьмем...
У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....
Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP...
Я пытаюсь написать запрос в PySpark, который получит правильное значение из массива. Например, у...
Итак, я следую за Apache spark, используя руководство по Python от udemy, где он запускает искровые...
У меня есть несколько паркетных файлов, каждый из которых содержит приблизительно 3 миллиона строк...
У меня есть UDF в pyspark, как показано ниже для преобразования строки в метку времени...
мы установили наш кластер через cdh6.2.используйте pyspark, создайте фрейм данных, затем сохраните...
Люди У меня есть огромный набор данных, который содержит категориальную переменную высокой мощности...
Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл,...
Как разделить 6-значное число на один столбец с 4 цифрами и один столбец с 2 цифрами (например, с...
У меня есть 200 CSV-файлов на основе дат. Из которых мне нужны данные только из 50 файлов. Должен...
Я всегда получаю ошибки при попытке преобразовать мои данные CSV в паркет. Я предполагаю, потому...
Я пытаюсь преобразовать тип документа в spark RDD, но я не знаю, как это сделать.По сути, я пытаюсь...
df1 +-------+-------+-----+ | ID | Score| hits| +-------+-------+-----+ | 01| 100| Null| | 02|...
У меня есть фрейм данных pyspark, который я хочу записать в s3. Мой фрейм данных выглядит как - id...
Мне интересно, есть ли способ объединить конечный результат в один файл при использовании Spark?...
Я пытаюсь прочитать дамп MongoDB в фрейм данных.Дамп в формате JSON, за исключением элемента Date
Я хочу рассчитать среднее значение для каждого города (группового города), используя RDD и данные....
Я вычисляю косинусное сходство между всеми строками фрейма данных с помощью следующего кода: from...
Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей...