плоская карта с двумя столбцами - PullRequest
0 голосов
/ 27 апреля 2019

Пример твиттера Dstream - плоская карта twitter_id с текстом

Впервые в scala и spark streaming.Попытка расширить пример кода твиттера, чтобы разделить твит на слова, но сохранить эти слова связанными с твиттерами.


setupLogging()

val tweets = TwitterUtils.createStream(ssc, None)
val statuses = tweets.map(status => status.getText())
val tweetwords = statuses.flatmap((tweetText => tweetText.split(" ")

tweetwords.print
//get running list of words from tweets. 
This
is 
my 
tweet
"#mytweet"

//instead want the same list with an twitter_id attached
val statuses = tweetmap{status => (status.getUser().getID(), status.getText())}
val tweetwords = statuses.flatmap( ????? This is where I am lost )

//this is what I want
tweetwords.print

1523523, This
1523523, is
1523523, my
1523523, tweet
1523523, #mytweet

Я открыт для других способов сделать это, включая кадры данных / наборы данных .. Спасибо!

1 Ответ

0 голосов
/ 27 апреля 2019

Если кто-то ищет это ...

val tweetwords = statuses.flatmap(case (t1, t2) => t2.split(" ").map((t1, _))}

...