Панды: объединить несколько DataFrame.apply в один - PullRequest
0 голосов
/ 12 июня 2018

Я использую панды для объединения некоторых CSV-файлов.

Мне нужно создать несколько новых столбцов на основе одной из строк, в данном случае, сети.В настоящее время у меня есть, как вы можете видеть, несколько применений для создания столбцов, и это снижает производительность, есть ли способ, которым я мог бы создать несколько столбцов с помощью только одного применения, или более эффективный способ достижения того же результата?

dataReader = pd.read_csv('file.csv', usecols=['geoname_id' , 'country_iso_code','country_name','subdivision_1_name','subdivision_2_name','city_name','time_zone'])
rangeReader = pd.read_csv('file2.csv', chunksize = size, usecols=['geoname_id','network'])
start_time = time.time()

output = open("result.csv" , 'w')

#removes countries we dont care about
dataReader = dataReader[(dataReader.country_iso_code.isin(countries))]

addHeader = True
for chunk in rangeReader:
    print("Loop ",i,"took %s seconds" % (time.time() - start_time))
    chunk = pd.merge(chunk, dataReader, on="geoname_id", how="inner")
    chunk['low_ip'] = chunk.apply(lambda row: getLowIp(row), axis=1)
    chunk['high_ip'] = chunk.apply(lambda row: getHighIp(row), axis=1)
    chunk['low_ip_int']= chunk.apply(lambda row: getIpInt(row['low_ip']), axis=1)
    chunk['high_ip_int']= chunk.apply(lambda row: getIpInt(row['high_ip']), axis=1)
    chunk['json'] = chunk.apply(lambda row: toElasticJson(row), axis=1)
    chunk.to_csv(output, header=addHeader, sep='|')
    addHeader = False

1 Ответ

0 голосов
/ 12 июня 2018

После некоторого копания я обнаружил, что

лямбда должна возвращать pd.Series (), например

return pd.Series((low , high, int(IPAddress(low)) , int(IPAddress(high))))

, и присвоение будет

chunk[['low_ip' , 'high_ip' , 'low_ip_int', 'high_ip_int']] = chunk.apply(lambda row: getAllIpFields(row['network']), axis=1)

таким образомЯ объединил все заявки в одну, сохранив некоторую производительность.

...