шизер с писпарком и нлп - PullRequest
       7

шизер с писпарком и нлп

0 голосов
/ 26 февраля 2020

- Количество слов в документе - Количество символов в документе - Сравнение ожидаемых частот символов в английском языке sh - Использование библиотеки обработки естественного языка для сравнения образцов слов в вашем документе, чтобы увидеть, допустимы английские sh слова -Найдите правильную расшифровку документа и сохраните выходной файл.

ввод : CNEGVPHYNE CREVBQ BS SYNXVARFF BA VOZ'F IARG PBECBENGR ARGJBEX PN. 1988; ОГ ГУРЕР НЕР ВАКРИКРАКРАГ ЭРКБЕГФ БС ГУР ГРЕЗ СЭБЗ РИФРЮРИР.


ABQR: A C -, ARKG: [9529] AEBSS, CERIVBHF: [9530] ABGJBEX, H C: 95 = A =

A C - / AC / CERS. from pyspark import SparkContext sc = SparkContext("local", "first app")

  `encrypted1 = sc.textFile("C:\Encrypted-1.txt")`
  `encrypted2 = sc.textFile("C:\Encrypted-2.txt")`
  `encrypted3 = sc.textFile("C:\Encrypted-3.txt")`



   `words = encrypted1.map(lambda line: str(line)).flatMap(lambda line: line.split())
   `chars = words.map(lambda line: str(line)).flatMap(lambda line: list(line))



   `total_char = chars.count()`
   `charCount = chars.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)`
   `print(charCount.top(200))`
   `char_result = charCount.map(lambda char: (char[0], char[1], '{:.1%}'.format( 
   char[1]/float(total_char))))`
   `print(char_result.top(100))`

пока что мне нужно вычислить частоту символов. Я хочу отсортировать частоту в порядке убывания. Тогда я хочу зашифровать только символ, а не знаки препинания или цифры. после этого мне нужно проверить это с НЛП, если они действительны англ sh слово или нет. Может кто-нибудь, пожалуйста, объясните процесс и как я могу сделать это с pyspark?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...