Как заменить значение с помощью регулярного выражения - PullRequest
0 голосов
/ 13 июня 2019

У меня есть фрейм данных с именем столбца и скоростью, и я хочу вычислить номер имени, скорость которого превышает 4,0

+--------------------+-----+
|                name| rate|
+--------------------+-----+
|               Jalsa|4.1/5|
|      Spice Elephant|4.1/5|
|     San Churro Cafe|3.8/5|
|Addhuri Udupi Bho...|3.7/5|
|       Grand Village|3.8/5|
+--------------------+-----+

Ответы [ 2 ]

1 голос
/ 13 июня 2019

при условии, что df является вашим фреймом данных,

from pyspark.sql import functions as F
# First, you filter your lines
df_filtered = df.where(F.split(F.col("rate"), '/').getItem(0).cast("double") > 4.0)

# Then, you count
df_filtered.count()
> 2
0 голосов
/ 13 июня 2019

Это выражение будет выводить наши нужные числа, тогда вы можете просто сделать математику:

([0-9.]+)\/([0-9]+)

Демо

Тест

# coding=utf8
# the above tag defines encoding for this document and is for Python 2.x compatibility

import re

regex = r"([0-9.]+)\/([0-9]+)"

test_str = ("+--------------------+-----+\n"
    "|                name| rate|\n"
    "+--------------------+-----+\n"
    "|               Jalsa|4.1/5|\n"
    "|      Spice Elephant|4.1/5|\n"
    "|     San Churro Cafe|3.8/5|\n"
    "|Addhuri Udupi Bho...|3.7/5|\n"
    "|       Grand Village|3.8/5|\n"
    "+--------------------+-----+\n")

matches = re.finditer(regex, test_str, re.MULTILINE)

for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

# Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.
...