У меня есть многоузловой кластер Spark cluster. Я создаю журналы, используя log4j. Журналы...
У меня есть кластер Mapr в версии 6.0 с искрой 2.2.1 на нем. Я должен выполнить задания Talend...
У меня есть список, который содержит несколько слов, и мне нужно извлечь соответствующие слова из...
Я только начал apache-spark с Java. В коллекции сохранено много документов. Я хочу найти документ...
Я загружаю свой CSV-файл во фрейм данных, и я могу это сделать, но мне нужно пропустить начальные...
У меня есть приложение Scala Spark, для которого я хочу создать jar с зависимостями, используя...
Я сталкиваюсь с множеством классов, требующих kryo регистрации. Существует ли регистрация по...
Я использую такой код: spark.read.format("jdbc").options(Map("url" ->...
Я проверяю код разработки и мне нужно избегать или использовать другой способ добавления столбцов с...
Я использую автономный искровой кластер с docker-compose У меня есть главный и один рабочий...
, когда я пытаюсь создать следующий пакет с помощью sbt package: import org.apache.spark.sql
Я пытаюсь прочитать файл из hdfs, используя scala, но я получаю следующее исключение, когда...
У меня есть список со всеми значениями в столбце, и мне нужно заменить все значения, которых нет в...
У меня есть пользовательские двоичные файлы c ++, которые читают файл необработанных данных и...
У меня есть три столбца в моем фрейме данных. В этом втором и третьем являются логические поля. Я...
Я хотел бы разделить СДР на количество разделов, соответствующее количеству различных ключей,...
Я не могу найти способ установить максимальный размер результатов драйвера.Ниже приведена моя...
Я пытаюсь увидеть разницу между выполнением лимитов в Spark / AWS Glue Я пытался использовать Spark...
Я ищу способ распространения огромного файла (8 ГБ, т. Е. Предтренированного встраивания word2vec)...
Основной темой здесь является использование распределенного глубокого обучения в форме табличных...
Я пытаюсь подключить метабазу в моем источнике данных, который находится в Databricks.Я попытался...
У меня есть файл, который я могу правильно прочитать следующим образом: sqlContext.read
Как мы можем сгенерировать уникальный идентификатор сеанса для данных потока кликов, используя...
Понятно, что при переносе / загрузке из oracle db в hdfs / parquet предпочтительно использовать...
Я экспортирую свой фрейм данных в Excel и условно форматирую его с цветами (так что для меня нет...