Вы можете использовать встроенную в Python функцию max с ключевым аргументом. Функция Max сравнивает элементы по ключевой функции (лямбда x: x [1] или itemgetter (1) в вашем случае).
rdd = sc.parallelize([
('2017-07-03 00:00:00', (u'LANXESS', 17119)),
('2017-07-03 00:00:00', (u'SCHALTBAU', 225)),
('2018-05-08 00:00:00', (u'LINDE', 8105)),
('2018-05-08 00:00:00', (u'HSBC', 16084)),
]).reduceByKey(lambda x,y: max((x, y), key=lambda x: x[1]))
rdd.collect()
или более функциональным способом
from operator import itemgetter
from functools import partial
reduce_func = partial(max, key=itemgetter(1))
rdd = sc.parallelize([
('2017-07-03 00:00:00', (u'LANXESS', 17119)),
('2017-07-03 00:00:00', (u'SCHALTBAU', 225)),
('2018-05-08 00:00:00', (u'LINDE', 8105)),
('2018-05-08 00:00:00', (u'HSBC', 16084)),
]).reduceByKey(reduce_func)
rdd.collect()
Результаты:
[('2018-05-08 00:00:00', ('HSBC', 16084)),
('2017-07-03 00:00:00', ('LANXESS', 17119))]