Question

Я использую панды для чтения файла CSV. Данные являются числами, но хранятся в файле CSV в виде текста. Некоторые значения не являются числовыми, если они плохие или отсутствуют. Как отфильтровать эти значения и преобразовать оставшиеся данные в целые числа.

Я предполагаю, что есть лучший / более быстрый способ, чем перебирать все значения и использовать isdigit() для проверки их числовости.

Есть ли у панды или numpy способ просто распознать плохие ценности в читателе? Если нет, то какой самый простой способ сделать это? Нужно ли указывать dtypes для этой работы?

Wes McKinney · Answer 1 · 29 марта 2012

Вы можете передать пользовательский список значений, которые будут считаться пропущенными, используя pandas.read_csv.Также вы можете передавать функции в аргумент converters.

eumiro · Answer 2 · 30 марта 2012

pandas.read_csv имеет параметр na_values:

na_values : list-like, default None
    List of additional strings to recognize as NA/NaN

, где вы можете определить эти неверные значения.

Sven Marnach · Answer 3 · 29 марта 2012

NumPy предоставляет функцию genfromtxt() специально для этой цели. Первое предложение из связанной документации:

Загрузка данных из текстового файла с пропущенными значениями, обработанными как указано.

Чтение CSV в Python Pandas и обработка плохих значений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение CSV в Python Pandas и обработка плохих значений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов