Я использую DataFrame в pyspark.sql.Почему выходные данные в Ubuntu vs Mac отличаются?
Я использую только 10 документов, поэтому N = 10.Я использовал формулу tf-idf = (1+log(tf))*log(N/df)
.Таким образом, вы можете видеть, что на самом деле Mac выдает правильный вывод, но Ubuntu (внутри виртуальной машины) выдает неправильный вывод.
Мой столбец tf-idf - это FloatType ().Я рассчитал его, используя функцию udf.
Вывод Ubuntu:
![Ubuntu output](https://i.stack.imgur.com/UkHS1.png)
Вывод Mac:
![Mac output](https://i.stack.imgur.com/BGCx5.png)