Работа Pyspark на Datapro c застревает на стадии 0 - PullRequest
3 голосов
/ 03 февраля 2020

У меня есть кластер Datapro c с 2 рабочими узлами. Моя программа pyspark очень проста

1) Считывает данные размером 500 МБ из Bigquery 2) Применяет несколько пользовательских функций 3) Отображает результаты из pyspark SQL кадра данных на основе некоторого условия

На третьем шаге работа застревает на стадии 0 и ничего не делает. Я новичок в Pyspark, но я не думаю, что данные огромны для того, чтобы его повесили. Пожалуйста, помогите мне.

@ Adam,

Мой UDF из библиотеки RDkit. Можно ли сделать UDF эффективным, чтобы вывод был в секундах?

from rdkit import Chem

user_smile_string = 'ONC(=O)c1ccc(I)cc1' 
mol = Chem.MolFromSmiles(user_smile_string)

def Matched(smile_structure):
    try:
        match = mol.HasSubstructMatch(Chem.MolFromSmiles(smile_structure))
    except Exception:
        pass
    else:
        return (match)

1 Ответ

1 голос
/ 06 февраля 2020

Как уже упоминалось в комментариях, вам необходимо устранить неполадки в работе, чтобы понять, что происходит.

Вы можете начать с изучения вывода драйвера задания , журналов задания и Spark job DAG , которые доступны из пользовательского интерфейса Google Cloud.

Если это не даст никакой полезной информации, вам нужно включить ведение журнала отладки в Spark и go оттуда.

...