Я в основном хочу получить название, количество звезд и количество отзывов о ресторанах с 5 звездами и более 1000 отзывов.
def fiveStarBusinessesSQL():DataFrame = {
spark.sql("SELECT name, stars, review_count FROM yelpBusinessesView WHERE stars == 5 && review_count >= 1000")
}
Мне не имеет смысла, почему я получаю ошибку. Это базовый вызов SQL, настолько же простой, насколько он может получить IMO.
Вот ошибка, которую я получаю:
Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException:
mismatched input 'FROM' expecting <EOF>(line 1, pos 33)
== SQL ==
SELECT name, stars, review_count FROM yelpBusinessesView WHERE stars == 5 && review_count >= 1000
---------------------------------^^^
Я работаю над набором данных Yelp. Вот пример того, что находится в yelpBusicationsView
{"business_id":"1SWheh84yJXfytovILXOAQ","name":"Arizona Biltmore Golf Club","address":"2818 E Camino Acequia Drive","city":"Phoenix","state":"AZ","postal_code":"85016","latitude":33.5221425,"longitude":-112.0184807,"stars":3.0,"review_count":5,"is_open":0,"attributes":{"GoodForKids":"False"},"categories":"Golf, Active Life","hours":null}