PySpark - я пытаюсь скопировать данные из json в rdd - PullRequest
0 голосов
/ 12 октября 2018

У меня есть информация о вине мерзавца.Я пытаюсь загрузить строки кода в rdd и запустить его через word2vec.Я пытаюсь обновить этот код Python2:

https://github.com/Lab41/hermes/blob/master/src/data_prep/model/Python2Vec--Save%20Model.ipynb

Это то, что я придумал, но по какой-то причине слова rdd имеют размер только 1, когда у меня 1000 строкtext.

sc = SparkContext()
sqlCtx = SQLContext(sc)
code_lines = sqlCtx.read.option("multiLine", True).option("mode", "PERMISSIVE").json("jsons\hi4.json")
code_lines = code_lines.repartition(300)

words = code_lines\
    .rdd.map(
        lambda line: line[11].split(" ")
    )\
    .map(lambda line: [f.lower() for f in line])\
    .filter(lambda line: line != [])

word2vec = Word2Vec()
word2vec.setMinCount(1)
word2vec.setVectorSize(50)
model = word2vec.fit(words)

Это первая строка файла json, около 100 000 строк в этом формате.

{"repo_name": "matplotlib", "commit_id": "b'58db731ed75dd25d132a07f4d4a3524eb41d200f", "author": "None", "author_mail": "None", "author_time": "None", "author_timezone": "None", "committer": "None", "committer_mail": "None", "committer_time": "None", "committer_timezone": "None", "comment": "None", "filename": "setup.py", "line_num": "1", "line": "import os"}

Полученный СДР имеет размер только 1, когда я печатаю счетчик().Модель выдает один вектор для пустой строки, значение первой записи.("импорт ОС")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...