Я создал фрейм данных с двумя столбцами, названными «project_code» и «page_title». Я хочу посчитать количество строк, в которых «page_title» начинается с «The» и имеет что-нибудь после этого. Для этого я использую регулярное выражение, которое выглядит как «^ The *».
Вот что у меня есть до сих пор:
val df = spark.read.textFile(“/pagecounts-20160101-000000”).map(l => {
val a = l.split(“ “)
(a(0), a(1))
}).toDF(“project_code”, “page_title”)
import scala.util.matching.Regex
val the = "^The*".r
Отсюда я не уверен, что делать. Я думаю, что я должен выполнить groupBy, используя регулярное выражение в качестве критерия, а затем агрегировать. Однако я действительно не уверен, как группироватьBy или объединять, используя в качестве критерия регулярное выражение.
Если вы ищете образец того, как выглядят данные, вы можете найти его здесь