IUUC:
В spark 2.0, и если вы были Gunna, прочитайте его из файла, например, файл .csv:
df = spark.read.format("csv").option("header", "true").load("pathtoyourcsvfile.csv")
, то вы можете отфильтровать его с помощью регулярных выражений, например так:
pattern = "\s+(word1|word2)\s+"
filtered = df.filter(df['<thedesiredcolumnhere>'].rlike(pattern))