- Количество слов в документе - Количество символов в документе - Сравнение ожидаемых частот символов в английском языке sh - Использование библиотеки обработки естественного языка для сравнения образцов слов в вашем документе, чтобы увидеть, допустимы английские sh слова -Найдите правильную расшифровку документа и сохраните выходной файл.
ввод : CNEGVPHYNE CREVBQ BS SYNXVARFF BA VOZ'F IARG PBECBENGR ARGJBEX PN. 1988; ОГ ГУРЕР НЕР ВАКРИКРАКРАГ ЭРКБЕГФ БС ГУР ГРЕЗ СЭБЗ РИФРЮРИР.
ABQR: A C -, ARKG: [9529] AEBSS, CERIVBHF: [9530] ABGJBEX, H C: 95 = A =
A C - / AC / CERS. from pyspark import SparkContext
sc = SparkContext("local", "first app")
`encrypted1 = sc.textFile("C:\Encrypted-1.txt")`
`encrypted2 = sc.textFile("C:\Encrypted-2.txt")`
`encrypted3 = sc.textFile("C:\Encrypted-3.txt")`
`words = encrypted1.map(lambda line: str(line)).flatMap(lambda line: line.split())
`chars = words.map(lambda line: str(line)).flatMap(lambda line: list(line))
`total_char = chars.count()`
`charCount = chars.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)`
`print(charCount.top(200))`
`char_result = charCount.map(lambda char: (char[0], char[1], '{:.1%}'.format(
char[1]/float(total_char))))`
`print(char_result.top(100))`
пока что мне нужно вычислить частоту символов. Я хочу отсортировать частоту в порядке убывания. Тогда я хочу зашифровать только символ, а не знаки препинания или цифры. после этого мне нужно проверить это с НЛП, если они действительны англ sh слово или нет. Может кто-нибудь, пожалуйста, объясните процесс и как я могу сделать это с pyspark?