Результаты PySpark разные в Ubuntu против Mac - PullRequest
0 голосов
/ 16 сентября 2018

Я использую DataFrame в pyspark.sql.Почему выходные данные в Ubuntu vs Mac отличаются?

Я использую только 10 документов, поэтому N = 10.Я использовал формулу tf-idf = (1+log(tf))*log(N/df).Таким образом, вы можете видеть, что на самом деле Mac выдает правильный вывод, но Ubuntu (внутри виртуальной машины) выдает неправильный вывод.

Мой столбец tf-idf - это FloatType ().Я рассчитал его, используя функцию udf.

Вывод Ubuntu:

Ubuntu output

Вывод Mac:

Mac output

1 Ответ

0 голосов
/ 16 сентября 2018

Как вы упомянули в комментариях, вы используете Python 2.7 в Ubuntu и Python 3.6 в Mac.Ваш код pyspark выполняет деление (/)

В python3

>>> 3/2
1.5

В python2

>>> 3/2
1

Проверьте этот ответ дляподробности о делении python2 против python3 и о том, как, возможно, настроить поведение вашего интерпретатора.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...