Question

Часто данные доступны с такой структурой папок, как

2000-01-01/john/smith

, а не раздел Hive. Spe c,

date=2000-01-01/first_name=john/last_name=smith

Spark (и pyspark) могут читать легко разбивать данные на части при использовании структуры папок Hive, но с «плохой» структурой папок это становится сложным и требует регулярных выражений и прочего.

Существует ли более простой способ справиться со структурой папок, не относящихся к кустам, для Спарк?

Простой способ справиться с плохой структурой папок для разделов в Apache Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Простой способ справиться с плохой структурой папок для разделов в Apache Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы