Я новичок в Python, и мне нужно проанализировать большой набор данных, содержащий необработанные сенсорные данные в формате Excel.
Каждый файл данных Excel имеет размер> 100 МБ для каждого участника исследования. Excelfile содержит 5 листов для измерения 5 различных физиологических параметров. Каждый лист содержит более 1 миллиона строк и двух столбцов (время, физиологический параметр).
После 1 миллиона строк сенсорных данных данные автоматически продолжаются в следующих столбцах (C и D) в файле Excel.
Каждый раз, когда я пытаюсь загрузить файл данных в Python, это занимает вечность. Мне было интересно несколько вещей:
1) Как я могу сказать Python читать данные из специфического листа Excel? Это нормально, что это занимает так много времени?
Вот что я попробовал:
df = pd.read_excel("filepath", sheet_name="Sheetname")
print (df.head (5))
2) Возможно ли выполнить анализ данных для этого большого файла данных в Python с помощью Pandas? Я попытался это ускорить процесс:
import xlrd
work_book = xlrd.open_workbook('filepath', on_demand=True)
work_book.release_resources()
3) Позже: я хочу сравнить физиологические параметры разных участников исследования. Поскольку это анализ временных рядов между участниками исследования, как я могу начать делать это на Python?
Я изучил основы Python за несколько дней, и мне это нравится до сих пор. Я понимаю, что мне предстоит долгий путь.
Обновление: я думаю, что я только что закончил анализ временных рядов (фактически, только анализ трендов, используя тест Дики-Фуллера и методы визуализации скользящего среднего)! : D Спасибо всем большое за помощь !!! Мне было труднее всего обойти модуль datetime в pandas, и мой столбец datetime все еще распознается как «object». Это нормально? Разве это не должно быть datetime64?