Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

1 голос
2 ответов

Итак, я хочу проверить, содержит ли мой текст слово «ребенок», а не любое другое слово, содержащее...

Maria Nazari / 15 мая 2019
0 голосов
0 ответов

Я создаю одно приложение, в котором я получу потоковые данные (csv) из kafka и запишу их в hdfs....

pikas / 15 мая 2019
6 голосов
4 ответов

У меня есть: Большой кадр данных (формат паркета, 100 000 000 строк, размер 4,5 ТБ), содержащий...

Ivan Menshikh / 15 мая 2019
0 голосов
1 ответ

У меня большой фрейм данных (чуть больше 20G), я пытаюсь сохранить его как объект pickle для...

Vishal / 15 мая 2019
0 голосов
1 ответ

У меня есть файлы паркета, и я хочу прочитать их на основе динамических столбцов, поэтому возьмем...

Vishvanath / 15 мая 2019
0 голосов
0 ответов

У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....

user11490741 / 15 мая 2019
0 голосов
0 ответов
0 голосов
1 ответ

Я пытаюсь написать запрос в PySpark, который получит правильное значение из массива. Например, у...

Jon Lunn / 15 мая 2019
0 голосов
0 ответов

Итак, я следую за Apache spark, используя руководство по Python от udemy, где он запускает искровые...

Sayan Basu / 15 мая 2019
0 голосов
0 ответов

У меня есть несколько паркетных файлов, каждый из которых содержит приблизительно 3 миллиона строк...

Tokyo / 15 мая 2019
0 голосов
1 ответ

У меня есть UDF в pyspark, как показано ниже для преобразования строки в метку времени...

syv / 15 мая 2019
0 голосов
1 ответ

мы установили наш кластер через cdh6.2.используйте pyspark, создайте фрейм данных, затем сохраните...

hangkongwang / 15 мая 2019
1 голос
0 ответов

Люди У меня есть огромный набор данных, который содержит категориальную переменную высокой мощности...

prateek / 15 мая 2019
0 голосов
0 ответов

Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл,...

Anton Gustafsson / 15 мая 2019
0 голосов
1 ответ

Как разделить 6-значное число на один столбец с 4 цифрами и один столбец с 2 цифрами (например, с...

NimR / 15 мая 2019
0 голосов
1 ответ

У меня есть 200 CSV-файлов на основе дат. Из которых мне нужны данные только из 50 файлов. Должен...

Kannan / 15 мая 2019
0 голосов
0 ответов

Я всегда получаю ошибки при попытке преобразовать мои данные CSV в паркет. Я предполагаю, потому...

Jiew Meng / 15 мая 2019
0 голосов
0 ответов

Я пытаюсь преобразовать тип документа в spark RDD, но я не знаю, как это сделать.По сути, я пытаюсь...

Nagesh Singh Chauhan / 15 мая 2019
0 голосов
1 ответ
0 голосов
1 ответ

У меня есть фрейм данных pyspark, который я хочу записать в s3. Мой фрейм данных выглядит как - id...

Pallavi Verma / 15 мая 2019
0 голосов
3 ответов

Мне интересно, есть ли способ объединить конечный результат в один файл при использовании Spark?...

Reza Karami / 15 мая 2019
0 голосов
1 ответ

Я пытаюсь прочитать дамп MongoDB в фрейм данных.Дамп в формате JSON, за исключением элемента Date

FAA / 14 мая 2019
0 голосов
1 ответ

Я хочу рассчитать среднее значение для каждого города (группового города), используя RDD и данные....

Gyu-lim Shim / 14 мая 2019
1 голос
1 ответ

Я вычисляю косинусное сходство между всеми строками фрейма данных с помощью следующего кода: from...

confused_pandas / 14 мая 2019
0 голосов
0 ответов

Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей...

user2895589 / 14 мая 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...