Я работаю над набором данных Yelp, используя Spark Dataframe. У меня проблемы с использованием фильтра ().
Кажется, я не могу указать целые числа, только строки?
Вот мой код
def fiveStarBusinessesDF(yelpBusinesses: DataFrame):DataFrame = {
yelpBusinesses.select("name", "stars", "review_count").filter("stars" == 5, "review_count" >= 1000)
}
Вот одна строка из набора данных yelp:
{"business_id":"1SWheh84yJXfytovILXOAQ","name":"Arizona Biltmore Golf Club","address":"2818 E Camino Acequia Drive","city":"Phoenix","state":"AZ","postal_code":"85016","latitude":33.5221425,"longitude":-112.0184807,"stars":3.0,"review_count":5,"is_open":0,"attributes":{"GoodForKids":"False"},"categories":"Golf, Active Life","hours":null}
Очевидно, что звезды и review_count являются целыми числами, а не строками.
Выводом моей функции должен быть DataFrame с именами, звездочками и review_count всего бизнеса с 5 звездочками, и больше или равен 1000 review_count.