Question

Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл, содержащий 20 ссылок, которые я хочу извлечь из ссылок на веб-сайтах.

links = spark.read.text("top-20.csv")
b = links.rdd.map(lambda link: crawl(link,depth))

Функция обхода возвращает список, содержащий 267 элементов.Если в конце строки был toDF ()понять, почему он вызывает исключение, используя toDF ().Почему он все еще ожидает 20 строк, когда новое значение составляет 267 строк?Преобразование из rdd в df, очевидно, не является необходимым, но меня интересует, как это работает.

Pyspark toDF () Бросок IllegalStateException Использование collect ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark toDF () Бросок IllegalStateException Использование collect ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов