Это мой первый раз, когда я использую Spark / Scala, и я заблудился.
Я предполагаю написать программу, которая берет URL-адрес и выводит количество изображений и имя файла изображения.
Итак, я смог получить количество изображений. Я делаю все это в командной строке, из-за чего довольно сложно вернуться назад и отредактировать мою def без повторного ввода всего этого. Есть ли лучшая альтернатива. Мне потребовалось довольно много времени, чтобы заставить Spark / Scala работать (я бы хотел использовать PySpark, но не смог заставить их общаться)
scala> def URLcount (url: String): String = {
| var html = scala.io.Source.fromURL(url).mkString
| var list = html.split("\n").filter(_ != "")
| val rdds = sc.parallelize(list)
| val count = rdds.filter(_.contains("img")).count()
| return("There are " + count + " images at the " + url + " site.")
| }
URLcount: (url: String) Строка
scala> URLcount ("https://www.yahoo.com/")
res14: String = В * имеется 9 изображений1016 * site.
Итак, я предполагаю, что после распараллеливания списка мне нужно применить фильтр и создать список всех строк, содержащих «img src». Как мне создать такой список, а затемпечатать его построчно для отображения URL-адресов изображений?