Я не думаю, что существует «очень» простой способ делать то, что вы хотите. Но это тоже не слишком сложно.
Во-первых, вам нужно четко определить критерий ~, чтобы решить, какие имена принадлежат одной и той же «компании». Мы можем попробовать «получить первый мир и посмотреть, совпадает ли он», очевидно, это не идеальный подход, но пока он подойдет.
Затем вы можете создать объект для хранения ваших новых данных. Я бы порекомендовал словарь с такими записями, как company: (total employees)
.
Теперь вы будете перебирать строки фрейма данных с помощью apply и функции, чтобы делать то, что вы хотите. Это будет выглядеть так:
dict = {}
def aggregator(row):
word1 = row.company.split(" ")[0]
if word1 in dict.keys:
dict[word1] += row.employees
else:
dict[word1] = row.employees
dataframe.apply(aggregator, axis = 1)