Я работаю с PySpark и загружаю файл csv
.У меня есть столбец с числами в европейском формате, что означает, что точка заменяет запятую, и наоборот.
Например: у меня есть 2.416,67
вместо 2,416.67
.
My data in .csv file looks like this -
ID; Revenue
21; 2.645,45
23; 31.147,05
.
.
55; 1.009,11
В пандах такой файл легко прочитать, указав параметры decimal=','
и thousands='.'
внутриpd.read_csv()
для чтения европейских форматов.
Код панд:
import pandas as pd
df=pd.read_csv("filepath/revenues.csv",sep=';',decimal=',',thousands='.')
Я не знаю, как это можно сделать в PySpark.
PySpark код:
from pyspark.sql.types import StructType, StructField, FloatType, StringType
schema = StructType([
StructField("ID", StringType(), True),
StructField("Revenue", FloatType(), True)
])
df=spark.read.csv("filepath/revenues.csv",sep=';',encoding='UTF-8', schema=schema, header=True)
Кто-нибудь может подсказать, как мы можем загрузить такой файл в PySpark, используя вышеупомянутую функцию .csv()
?