Как распечатать токены при использовании pyspark.ml.feature.Tokenizer? - PullRequest
0 голосов
/ 06 октября 2019

Я хотел бы взглянуть на токены, которые были созданы, когда я использовал pyspark.ml.feature.Tokenizer. Как я могу это сделать? Если у меня есть этот кусок кода:

tokenizer = Tokenizer(inputCol="SystemInfo", outputCol="words")

Я попытался напечатать токены, используя print(vars(tokenizer)), но, конечно, он возвращает только атрибуты. Полный код можно найти здесь: https://docs.microsoft.com/de-de/azure/hdinsight/spark/apache-spark-ipython-notebook-machine-learning

1 Ответ

0 голосов
/ 06 октября 2019

Вам нужно преобразовать и показать, вот и все. Вот быстрый пример, чтобы помочь вам. Надеюсь, это поможет.

from pyspark.ml.feature import Tokenizer

df = spark.createDataFrame([
    (0, 'Hello and good day'),
    (1, 'This is a simple demostration'),
    (2, 'Natural and unnatural language processing')
    ], ['id', 'sentence'])

df.show(truncate=False)
# +---+-----------------------------------------+
# |id |sentence                                 |
# +---+-----------------------------------------+
# |0  |Hello and good day                       |
# |1  |This is a simple demostration            |
# |2  |Natural and unnatural language processing|
# +---+-----------------------------------------+

tokenizer = Tokenizer(inputCol="sentence", outputCol="words")
tokenized = tokenizer.transform(df)

tokenized.select('words').show(truncate=False)
# +-----------------------------------------------+
# |words                                          |
# +-----------------------------------------------+
# |[hello, and, good, day]                        |
# |[this, is, a, simple, demostration]            |
# |[natural, and, unnatural, language, processing]|
# +-----------------------------------------------+
...