Вы можете просто использовать регулярное выражение findall
и считать. Это выполняет подсчет и производит наборы слов с их счетом гласных:
import re
flatRDD.map(lambda l: (l, len(re.findall('[aeiou]', l)))).collect()
Производство:
[('vikram', 2), ('is', 1), ('best', 1), ('person', 2)]