Очистка столбцов данных для классификации - PullRequest
0 голосов
/ 18 февраля 2020

Я пытаюсь удалить всю нерелевантную информацию из одного из моих столбцов в моем фрейме данных, но не знаю, как это сделать. Я импортирую данные из CSV-файла прямо на мой фрейм данных.

0       [{"id": 28, "name": "Action"}, {"id": 12, "nam...

1       [{"id": 12, "name": "Adventure"}, {"id": 14, "...
2       [{"id": 28, "name": "Action"}, {"id": 12, "nam...


4798    [{"id": 28, "name": "Action"}, {"id": 80, "nam...
4799    [{"id": 35, "name": "Comedy"}, {"id": 10749, "...
4800    [{"id": 35, "name": "Comedy"}, {"id": 18, "nam...

Я бы хотел иметь только жанр, например, боевик, комедия, приключение. Если бы кто-нибудь мог помочь мне или отправить меня в правильном направлении, я был бы очень признателен.

Ответы [ 3 ]

0 голосов
/ 18 февраля 2020

Вы можете применять функции к столбцам, используя метод apply.

df[column_name] = df[column_name].apply(lambda x: x if x in ['action', 'comedy', 'adventure'] else None)
0 голосов
/ 18 февраля 2020

Я предполагаю, что вы загрузили данные в фрейм данных df, и у него есть столбец с именем name, который представляет жанр. Затем вы можете выполнить следующие действия, чтобы отфильтровать требуемые жанры -

req_genres = ['action', 'comedy', 'adventure']
filtered_df = df[df['name'].isin(req_genres)].reset_index(drop=True)

. Выше приведены только строки с жанром «боевик», «комедия» или «приключение».

0 голосов
/ 18 февраля 2020

Вот пример:

 ID    Name

 1     Action
 2     Comedy
 3     Adventure




 def printOneCol():
       my_sheet = 'Sheet1'
       file_name = 'C:/Users/you/Desktop/test.xlsx'
       df = pd.read_excel(file_name,sheet_name=my_sheet, usecols='B:B')
       print(df.to_string(index=False))

Это с помощью Excel. Вы можете указать, какой столбец с usecols='B:B'

Надеюсь, это поможет.

...