Question

Я читаю файл json.gz следующим образом:

qa_df =spark.read.json('qa_Clothing_Shoes_and_Jewelry.json.gz')
re_df=spark.read.json('reviews_Clothing_Shoes_and_Jewelry_5.json.gz')

print('data cleaning started')
def clean(data):
  data = str(data)
  data = data.lower()
  data = re.sub("[^a-zA-Z0-9- ]",' ',data)
  data = re.sub("   "," ",data)
  data = re.sub("  "," ",data)
  data = data.split()
  data = [ps.stem(x) for x in data if x not in stopwords_list]
  return data

udf_function = udf(clean,ArrayType(StringType()))
re_df = re_df.withColumn("tokenized_review", udf_function("reviewText"))
qa_df=qa_df.withColumn("tokenized_question",udf_function("question"))
qa_df=qa_df.withColumn("tokenized_answer",udf_function("answer")) 
print("Data cleaning complete")

, и я проверил состояние узла, используя: yarn node -lisr .. все узлы показывают 0 для отсутствия работающих контейнеров

искра не используя узлы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

искра не используя узлы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов