У меня есть CSV-файл с данными, разделенными запятыми, каждая строка содержит набор данных, однако он содержит 77 столбцов / категорий, и мне нужно только 30 из них для анализа, а не первые 30, но они смешаны, например:
[ usefuldata1, notuseful1, notuseful2, notuseful3, usefuldata2, notuseful4, ....] and so on
Я пытаюсь создать список только с теми данными, которые мне нужны, есть ли простой способ сделать это?
В списке есть заголовки, которые я должен игнорировать как хорошо.
Пока у меня был этот код:
# read csv file as a list of lists
with open('train_data.csv', 'r') as read_obj:
# pass the file object to reader() to get the reader object
csv_reader = reader(read_obj)
# Pass reader object to list() to get a list of lists
training_data = list(csv_reader)
#print(training_data)
print("Just read the training csv file")
Но я совершенно не уверен, как сохранить только те столбцы данных, которые мне нужны, или мне следует использовать другой метод?
Я попытался поместить имена нужных мне столбцов в массив col_list и использовать panda для сохранения только этих столбцов:
training_data = []
df = pd.read_csv("0_train_balanced_200.csv", usecols=col_list)
training_data = df.values.tolist()
, но, несмотря на его компиляцию, он показывает большую часть (да Я проверил) Существующие данные в виде нан, доказательство: ![enter image description here](https://i.stack.imgur.com/TYX4E.png)
Вся помощь очень ценится !!!