Конвертировать Spark DataFrame в LabeledPoint для наивного Байеса - PullRequest
0 голосов
/ 22 мая 2018

Я пытаюсь преобразовать DataFrame в LabeledPoint, чтобы использовать его в наивном байесовском классификаторе.Это мой код:

# These are the two dataframes
train = to_spark_df("train.csv")
test = to_spark_df("test.csv")

# These are the labels of the six classes
labels = [i for i in train.columns if i not in ["id", "comment_text"]]

tokenizer = Tokenizer(inputCol="comment_text", outputCol="words")
wordsData = tokenizer.transform(train)

word2vec = Word2Vec(inputCol = "words", outputCol = "rawFeatures")
model = word2vec.fit(wordsData)
result = model.transform(wordsData) # This is the feature vector extracted with Word2Vec

На этом этапе я хотел бы создать объект LabeledPoint с «метками» в качестве первого поля, которое содержит классы моего набора данных, и «результатом» в качестве второго поля, которое содержитфункции.Я пытался отобразить это, но не смог.Кто-нибудь может мне помочь?

...