Question

Я пишу программу для исправления значений столбцов базы данных (вход CSV) с числами, соединенными из источников данных varios.

Проблема состоит в том, что они имеют разделитель тысяч и десятичный разделитель, использующий точку "."

Например:

100.000.000 -> 10000000
9.000 -> 9000
0,600000 -> 0,6 (ДЕСЯТИЧНО)
12.000.000 -> 12000000
0.200000 -> 0,2 (ДЕЦИМАЛЬНО)
1.000 -> 1000
700.000 -> 700000

Я пробовал с условным регулярным выражением, но я не нашел правильный путь, поэтому мне пришлось сделать это в два этапа ('когда', и извлечение регулярного выражения):

import sys
from pyspark import SQLContext, SparkContext
from pyspark.sql.types import StructType,StructField,StringType,DateType,IntegerType
sc = SparkContext()
sqlContext = SQLContext(sc)

from pyspark.sql.functions import regexp_replace, regexp_extract, col, when
df3 = sqlContext.createDataFrame([["100.000.000"],["9.000"],["0.600000"],["12.000.000"],["0.200000"],["1.000"],["700.000"]],["SENSOR_VALUE"])

df3.show()

regexDotDig6 = "\.(\d\d\d\d\d\d)";
regexDotDig3 = "\.(\d\d\d)";

df3 = df3.withColumn("SENSOR_VALUE", when(regexp_extract(df3.SENSOR_VALUE, regexDotDig6,1) == "",                                    regexp_replace(df3.SENSOR_VALUE, regexDotDig3, "$1"))                                    .otherwise(df3.SENSOR_VALUE).cast('double'))

df3.show()

Есть ли способ сделать это в том же регулярном выражении, или более эффективным способом?

pault · Answer 1 · 26 октября 2018

Вы можете использовать pyspark.sql.Column.startswith, чтобы проверить, начинается ли строка с "0".Если да, приведите его к double.Если нет, замените периоды пустой строкой, а затем приведите.

from pyspark.sql.functions import col, when, regexp_replace

df3.withColumn(
    "SENSOR_VALUE",
    when(
        col("SENSOR_VALUE").startswith("0"),
        col("SENSOR_VALUE")
    ).otherwise(regexp_replace("SENSOR_VALUE", "\.", "")).cast("double")
).show()
#+------------+
#|SENSOR_VALUE|
#+------------+
#|       1.0E8|
#|      9000.0|
#|         0.6|
#|       1.2E7|
#|         0.2|
#|      1000.0|
#|    700000.0|
#+------------+

David Martin · Answer 2 · 26 октября 2018

Это не оптимальное решение, которое мне удалось ...

from pyspark.sql.functions import when, regexp_extract, regexp_replace

df3 = df3.withColumn(
    "SENSOR_VALUE",
    when(
        regexp_extract(df3.SENSOR_VALUE, regexDotDig6,1) == "",
        regexp_replace(df3.SENSOR_VALUE, regexDotDig3, "$1")
    ).otherwise(df3.SENSOR_VALUE).cast('double'))

df3.show()

+------------+
|SENSOR_VALUE|
+------------+
|       1.0E8|
|      9000.0|
|         0.6|
|       1.2E7|
|         0.2|
|      1000.0|
|    700000.0|
+------------+

преобразовать строковый столбец в удвоенный период с десятичной точкой и разделителем тысяч

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

преобразовать строковый столбец в удвоенный период с десятичной точкой и разделителем тысяч

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы