Я супер новичок с pyspark.Просто пробую код для обработки моих документов в Сообществе Databricks.У меня много html-страниц в Dataframe, и мне нужно сопоставить функцию, которая очищает все html-теги.
from selectolax.parser import HTMLParser
def get_text_selectolax(html):
tree = HTMLParser(html)
if tree.body is None:
return None
for tag in tree.css('script'):
tag.decompose()
for tag in tree.css('style'):
tag.decompose()
for node in tree.css('body'):
if node.tag == "strong":
print( "node.html" )
print( node.html )
text = tree.body.text(separator='\n')
return text
df_10 = df.limit(10) #Out: df_10:pyspark.sql.dataframe.DataFrame
rdd_10_2 = df_10.select("html").rdd.map( get_text_selectolax )
schema = StructType([
StructField("html", StringType()),
])
df_10_2 = spark.createDataFrame(rdd_10_2, schema)
df_10_2.show() #-----------> here the code failure
Я хочу очистить все свои документы и заставить работать Dataframe.Thx
Вот полная записная книжка: https://databricks -prod-cloudfront.cloud.databricks.com / public / 4027ec902e239c93eaaa8714f933acac8714f173bcfc / 5506005740338231/939083865254574/8659136733442891/1008 ** 100h