Question

У меня есть кластер Datapro c с 2 рабочими узлами. Моя программа pyspark очень проста

1) Считывает данные размером 500 МБ из Bigquery 2) Применяет несколько пользовательских функций 3) Отображает результаты из pyspark SQL кадра данных на основе некоторого условия

На третьем шаге работа застревает на стадии 0 и ничего не делает. Я новичок в Pyspark, но я не думаю, что данные огромны для того, чтобы его повесили. Пожалуйста, помогите мне.

@ Adam,

Мой UDF из библиотеки RDkit. Можно ли сделать UDF эффективным, чтобы вывод был в секундах?

from rdkit import Chem

user_smile_string = 'ONC(=O)c1ccc(I)cc1' 
mol = Chem.MolFromSmiles(user_smile_string)

def Matched(smile_structure):
    try:
        match = mol.HasSubstructMatch(Chem.MolFromSmiles(smile_structure))
    except Exception:
        pass
    else:
        return (match)

Igor Dvorzhak · Answer 1 · 06 февраля 2020

Как уже упоминалось в комментариях, вам необходимо устранить неполадки в работе, чтобы понять, что происходит.

Вы можете начать с изучения вывода драйвера задания , журналов задания и Spark job DAG , которые доступны из пользовательского интерфейса Google Cloud.

Если это не даст никакой полезной информации, вам нужно включить ведение журнала отладки в Spark и go оттуда.

Работа Pyspark на Datapro c застревает на стадии 0

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Работа Pyspark на Datapro c застревает на стадии 0

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы