Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл, содержащий 20 ссылок, которые я хочу извлечь из ссылок на веб-сайтах.
links = spark.read.text("top-20.csv")
b = links.rdd.map(lambda link: crawl(link,depth))
Функция обхода возвращает список, содержащий 267 элементов.Если в конце строки был toDF ()понять, почему он вызывает исключение, используя toDF ().Почему он все еще ожидает 20 строк, когда новое значение составляет 267 строк?Преобразование из rdd в df, очевидно, не является необходимым, но меня интересует, как это работает.