Я написал пользовательскую функцию, которая будет находить большинство вхождений слов из файла .txt. Мне нужно запустить его через PySpark как RDD
Я написал функцию с именем top_five, чей единственный параметр это имя_файла
import collections
def top_five(file_name):
file = open(file_name, 'r', encoding = 'utf8')
list1 = []
for line in file:
print(line)
words = line.split()
for i in words:
j =''.join(filter(str.isalpha, i))
j = j.lower()
if len(j) > 5:
list1.append(j)
count = collections.Counter(list1)
most_occur = count.most_common(5)
print("The most used words in the Applied Data Science Textbook is:")
for item in most_occur:
print("\t" + item[0] + " occured " + str(item[1]) + " times")
return
Фактические результаты должны быть последними 3 строками функции top_fiveгде его печатает каждое слово и количество вхождений