Pyspark toDF () Бросок IllegalStateException Использование collect () - PullRequest
0 голосов
/ 15 мая 2019

Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл, содержащий 20 ссылок, которые я хочу извлечь из ссылок на веб-сайтах.

links = spark.read.text("top-20.csv")
b = links.rdd.map(lambda link: crawl(link,depth))

Функция обхода возвращает список, содержащий 267 элементов.Если в конце строки был toDF ()понять, почему он вызывает исключение, используя toDF ().Почему он все еще ожидает 20 строк, когда новое значение составляет 267 строк?Преобразование из rdd в df, очевидно, не является необходимым, но меня интересует, как это работает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...