При выводе схемы Spark Dataframe выдает ошибку, если в csv-файле есть столбец со специальными символами.
Тестовый пример foo.csv
id, комментарий 1, #Hi 2, Hello
spark = SparkSession.builder.appName("footest").getOrCreate()
df= spark.read.load("foo.csv", format="csv", inferSchema="true", header="true")
print(df.dtypes)
raise ValueError("Could not parse datatype: %s" % json_value)
Я нашел комментарий от Dat Tran по поводу inferSchema в пакете spark csv как решить эту проблему ... разве мы не можем до сих пор выводить логическую схему до появления данных?