У меня есть кластер Datapro c с 2 рабочими узлами. Моя программа pyspark очень проста
1) Считывает данные размером 500 МБ из Bigquery 2) Применяет несколько пользовательских функций 3) Отображает результаты из pyspark SQL кадра данных на основе некоторого условия
На третьем шаге работа застревает на стадии 0 и ничего не делает. Я новичок в Pyspark, но я не думаю, что данные огромны для того, чтобы его повесили. Пожалуйста, помогите мне.
@ Adam,
Мой UDF из библиотеки RDkit. Можно ли сделать UDF эффективным, чтобы вывод был в секундах?
from rdkit import Chem
user_smile_string = 'ONC(=O)c1ccc(I)cc1'
mol = Chem.MolFromSmiles(user_smile_string)
def Matched(smile_structure):
try:
match = mol.HasSubstructMatch(Chem.MolFromSmiles(smile_structure))
except Exception:
pass
else:
return (match)