Pandas продолжает повторять строки при использовании read_excel - PullRequest
1 голос
/ 13 января 2020

Я read_excel(), чтобы преобразовать электронную таблицу xlsx в кадр данных. Обычно он работает нормально, но для этой электронной таблицы, когда я импортирую ее и пытаюсь перечислить все значения с df["Date"], кажется, она повторяется каждую дату много-много раз. Любая идея, почему это так?

    df = pd.read_excel("data.xlsx", sheet_name="Data")
    dates = df['Date']

Результат:

    0        2014-12-22
    1        2014-12-22
    2        2014-12-22
    3        2014-12-22
    4        2014-12-22
                ...
    419532   2020-01-10
    419533   2020-01-10
    419534   2020-01-10
    419535   2020-01-10
    419536   2020-01-10

редактировать: немного таблицы:

enter image description here Как видите, даты повторяются, они точно не выглядят так в моей таблице. Есть идеи почему? Спасибо

1 Ответ

1 голос
/ 13 января 2020

pd.read_excel() прочитает весь лист, если вы не ограничите его в ограниченном диапазоне. В Excel имеется ряд функций, позволяющих изменять отображение листа без изменения данных, имеющихся на листе (фильтрация, скрытие строк и т. Д. c.). Таким образом, лишние строки - это данные, которые существуют на листе, но были скрыты от отображения. abs

Некоторые признаки говорят, что кнопка фильтра содержит отфильтрованный символ, синие номера строк и скрытые строки, как показано ниже.

enter image description here

Убедитесь, что вы можете видеть все данные, чтобы вы знали, что находится на листе, а не то, что просто видно.

Чтобы получить то же представление, что и у вас, вы можете отфильтровать ваш фрейм данных с условиями.

df = df[df['city'] == 'CALGARY']

или несколькими условиями:

df = df[(df['city'] == 'CALGARY') & (df['utility'] == 'Suncor')]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...