Я новичок в Python.Я также новичок в pysaprk.Я пытаюсь запустить строку кода, которая принимает (kv [0], kv [1]), а затем запустить функцию ngrams () для kv [1].
Также приведен пример макета данных mentions
, над которыми работает код:
Out[12]:
[{'_id': u'en.wikipedia.org/wiki/Kamchatka_Peninsula',
'source': 'en.wikipedia.org/wiki/Warthead_sculpin',
'span': (100, 119),
'text': u' It is native to the northern.'},
{'_id': u'en.wikipedia.org/wiki/Warthead_sculpin',
'source': 'en.wikipedia.org/wiki/Warthead_sculpin',
'span': (4, 20),
'text': u'The warthead sculpin ("Myoxocephalus niger").'}]
Это код, с которым я работаю:
def build(self, mentions, idfs):
m = mentions\
.map(lambda (source, target, span, text): (target, text))
.flatMapValues(lambda v: ngrams(v, self.max_ngram))
.map(lambda v: (v, 1))
.reduceByKey(add)\
Как должны быть сформулированы данные из предыдущего шага для устранения этой ошибки ??Буду благодарен за любую помощь или руководство.
Я использую Python 2.7 и pyspark 2.3.0.
Спасибо,