связь записи Python с искрой - PullRequest
       38

связь записи Python с искрой

0 голосов
/ 01 декабря 2018

Ниже приведена запись пакета пакета сравнения.Я хочу передать искровой фрейм данных или RDD вместо фрейма данных Pandas в функции вычисления.Как это можно сделать?

# initialise class
comp = recordlinkage.Compare()

# initialise similarity measurement algorithms
comp.string('first_name', 'name', method='jarowinkler')
comp.string('lastname', 'lastname', method='jarowinkler')
comp.exact('dateofbirth', 'dob')
comp.exact('sex', 'sex')
comp.string('address', 'address', method='levenshtein')
comp.exact('place', 'place')
comp.numeric('income', 'income')

# the method .compute() returns the DataFrame with the feature vectors.
comp.compute(candidate_pairs, census_data_1980, census_data_1990)
...