Я пытаюсь создать простой класс с MRJob в python, который считает имена файлов CSV и выдает имена, которые появляются более одного раза. Однако, когда я даю имена и сумму (количество), он дает мне каждое имя, и каждое имя имеет значение 1. Похоже, что оно игнорировало условие, если сумма (число)> 1, а также неправильно суммирует значения.
class MRnames(MRJob):
def mapper(self, _, line):
row = line.split(',')
name = row[0]
yield name, 1
def combiner(self, name, counts):
yield name, sum(counts)
def reducer(self, name, counts):
if sum(counts) > 1:
yield name, sum(counts)