У меня есть неструктурированные наборы данных, которые используют устаревшую программу Java, которая в настоящее время загружается на основе указанной строки c в строке, разделенной запятой. Например, если строка содержит «PAT» в одном из столбцов, то каждая строка, содержащая эту строку, загружается в столбец в базе данных SQL. Это происходит для нескольких разных строк.
Что делает эту уникальность, так это то, что каждый тип строки имеет различное количество «столбцов» или различное количество разделенных полей. Я переписываю эту программу в Python и пытаюсь выполнить ETA для набора данных для проверки.
По сути, сейчас я хочу выполнить поиск по файлу для указанной строки c и загрузить все строки, которые содержат эту строку в кадре данных в pandas. Из-за разного количества столбцов в строках я не могу загрузить файл в информационный кадр, а затем отфильтровать его. Можно ли выполнить предварительный поиск строки перед загрузкой в фрейм данных?
Пример даты:
123456,20010101,14:03:55.425,FAN,*,*,*
123456,20010101,14:03:55.425,PAT,0.00,0.00,0.00
123456,20010101,14:03:55.425,CON,*,*,*
123456,20010101,14:03:55.425,TRUNK,0.00,0.00,0.00,0.00,0.00
123456,20010101,14:03:55.462,FAN,*,*,*
123456,20010101,14:03:55.462,PAT,0.00,0.00,0.00
123456,20010101,14:03:55.462,CON,*,*,*