вернуть имя столбца для столбца, содержащего текстовое значение - PullRequest
3 голосов
/ 20 марта 2019

У меня грязный набор данных. В каждой строке 8 слов, разбросанных по 196 столбцам. задача состоит в том, чтобы найти столбец, содержащий слово в каждой строке. Пример: слово «Оплачено» может быть в любом из 196 столбцов, но мы знаем, что оно есть. Нам нужно знать, в какой колонке он находится. Спасибо за вашу помощь.

1 Ответ

2 голосов
/ 20 марта 2019

Я думаю, eq + idxmax здесь проще всего для нескольких слов и точных совпадений с гарантией того, что оно есть.Поскольку это всего 8 слов, возможно, это просто понимание списка и объединение результатов:

Пример данных:

import pandas as pd
import numpy as np

np.random.seed(123)
l = ['']*192 + ['paid', 'foo', 'bar', 'baz']
df = pd.DataFrame([np.random.choice(l, replace=False, size=196)
                   for i in range(5)])

Код:

pd.concat([df.eq(word).idxmax(1).rename(word) for word in ['paid', 'foo', 'bar', 'baz']], 
          axis=1)

#   paid  foo  bar  baz
#0   112  167  184  142
#1   186   93   17  173
#2    56  142  179   67
#3    15   78   38   79
#4   116   84   18   61

Если вынужно только проверять столбцы [4: 196] использовать df.iloc[:, 4:197].eq(word) вместо проверки каждого столбца

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...