Допустим, у меня есть текстовый файл с такими данными, как ...
my "sample data set" kdf/dfjl/ looks like this
У меня есть регулярное выражение, которое может объединить все это в группы. Значения, которые я хотел бы поместить в мои столбцы, будут такими:
желаемые значения из групп
Я бы хотел, чтобы каждая группа стала отдельным столбцом в rdd
val pattern = """(\S+) "([\S\s]+)\" (\S+) (\S+) (\S+) (\S+)""".r
var myrdd = sc.textFile("my/data/set.txt")
myrdd.map(line => pattern.findAllIn(line))
Я пробовал несколько разных методов для выведения совпадений из регулярного выражения в разные столбцы, например toArray, toSeq, но еще даже не приблизился.
Я знаю, как данные существуют в матчах ....
val answer = pattern.findAllIn(line).matchData
for(m <- answer){
for(e <- m.subgroups){
println(e)
}
}
Это те, кого я ищу ... но мне не повезло, что эти данные были разделены в моем СДР.
Спасибо