Как создать полудублированные строки в пандах на основе текстовых данных? - PullRequest
0 голосов
/ 19 сентября 2018

Я вижу другие вопросы, которые люди задавали по этой теме, но многие решения, по-видимому, направлены на какую-то математическую операцию со специальными встроенными функциями для ее обработки (например, «повторить»).Я пытаюсь разбить текст на несколько строк, и это не похоже на работу.

У меня есть эти данные:

enter image description here

Я хочу выделить каждое приложение в каждой строке в отдельную строку и сохранить все остальные данные.Результат будет выглядеть примерно так:

enter image description here

Я пробовал несколько комбинаций «стек» или создание списков и создание новых DF, но я не могНе могу понять, как получить все остальные столбчатые данные с его помощью.

Мое частичное решение, приведенное ниже, дает только 2 столбца вместо всех (у меня около 20 столбцов и 200 тыс. строк реальных данных).

import pandas as pd

data = [[1,'vuln1','App1;App2;App3'],[1,'vuln2','App1;App2;App3'],[1,'vuln3','App1;App2;App3']]
col = ['Machine','Vulnerability','Application']
df = pd.DataFrame(data, columns=col)

new_df = pd.DataFrame(df['Application'].str.split(';').tolist(), index=df['Machine']).stack()

Ответы [ 2 ]

0 голосов
/ 20 сентября 2018

вам нужно np.repeat и df.stack ()

out_df=pd.DataFrame(columns=df.columns)

out_df['Machine']=np.repeat(df['Machine'].values,repeats=len(df['Application'].str.split(';')),axis=0)
out_df['Vulnerability']=np.repeat(df['Vulnerability'].values,repeats=len(df['Application'].str.split(';')),axis=0)

out_df['Application']=df['Application'].str.split(';',expand=True).stack().values
print(out_df)
   Machine Vulnerability Application
0        1         vuln1        App1
1        1         vuln1        App2
2        1         vuln1        App3
3        1         vuln2        App1
4        1         vuln2        App2
5        1         vuln2        App3
6        1         vuln3        App1
7        1         vuln3        App2
8        1         vuln3        App3
0 голосов
/ 19 сентября 2018

Сначала я расширяю фрейм данных точкой с запятой, затем использую функцию melt для создания ожидаемого вывода.

df1= pd.concat([df, df['Application'].str.split(';', expand=True)], axis=1)
df1.melt(['Machine','Vulnerability'], value_name='a').drop('variable', 1)

#    Machine Vulnerability     a
# 0        1         vuln1  App1
# 1        1         vuln2  App1
# 2        1         vuln3  App1
# 3        1         vuln1  App2
# 4        1         vuln2  App2
# 5        1         vuln3  App2
# 6        1         vuln1  App3
# 7        1         vuln2  App3
# 8        1         vuln3  App3
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...