Получение данных из огромной таблицы - PullRequest
0 голосов
/ 29 октября 2019

Позвольте мне описать задачу: каждый столбец представляет корабль (имя столбца - это название корабля, а строки - контейнеры). Название корабля имеет вид nn: xxxxxx (ttttttt). Контейнеры представлены в виде aa-bb-cccccccc/yyyy/xx@ddddddddd.ee, где bb - имя конечного пункта назначения контейнера. Моя задача - рассчитать количество контейнеров, конечным пунктом назначения которых является Япония, поэтому мне нужно извлечь bb из формы контейнеров и сосчитать их. Моя идея состоит в том, чтобы создать другую таблицу, которая будет создана функцией split (с '-' в качестве заголовка разделения), а затем посчитать ее, просто добавив +1, когда bb находится в ячейке. Вот некоторый код:

import pandas as pd

df = pd.read_csv("dane.csv", sep=';')

shape = list(df.shape)
for i in range(0, shape[0]):
    for j in range(0, shape[1]):
        obj = df.iloc[i, j].split('-')

Я получаю трассировки как:

DtypeWarning: Columns (0,1,2,3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,21,22,23,24,25,26,27,28,29,31,32,34,35,36,37,38,39,40,41,43,44,45,46,47,49,51,52,53,54,55,56,57,58) have mixed types. Specify dtype option on import or set low_memory=False.

и

'float' object has no attribute 'split'

Как я могу улучшить это?

Входной файл, первые 5 строк 1-го столбца:

1: Brandenburg (Post-Panamax)
ES-NL-10633096/1938/X1@hkzydbezon.dk/6749
BE-BR-61613986/3551/B1@oqk.bf/39927
PH-SA-39552610/2436/A1@venagi.hr/80578
PA-AE-59814691/4881/X1@zhicvzvksl.cl/25247

И некоторые ячейки пусты.

1 Ответ

2 голосов
/ 29 октября 2019

Давайте используем регулярные выражения с extract, затем value_counts, и вы можете отфильтровать свой результат, чтобы получить правильные места назначения.

from io import StringIO

intxt = StringIO("""1: Brandenburg (Post-Panamax)
ES-NL-10633096/1938/X1@hkzydbezon.dk/6749
BE-BR-61613986/3551/B1@oqk.bf/39927
PH-SA-39552610/2436/A1@venagi.hr/80578
PA-AE-59814691/4881/X1@zhicvzvksl.cl/25247""")

df = pd.read_csv(intxt, names=['data'])

df['data'].str.extract('^[a-zA-z]{2}-([a-zA-Z]{2})')[0].value_counts()

Вывод:

AE    1
BR    1
SA    1
NL    1
Name: 0, dtype: int64
...