Совместная матрица для уникальных символов в данных python - PullRequest
0 голосов
/ 21 апреля 2020

Мне нужна матрица сопутствующих данных для столбца значка из моих данных (более 200 тыс. Записей). У значков есть алфавиты, специальные символы и цифры -> это будут мои столбцы. Сначала я извлек все уникальные символы, которые появились на всех значках. Теперь я должен найти частоту каждого символа в значках. Как, например, на изображении ниже приведены два значка и их частота. пример изображения того, как будет выглядеть вывод

Это код, который я сделал до сих пор;

#data
enter code herdata = pd.read_csv('train_ad_facts.csv')
df = pd.DataFrame(data) 
enter code here


#finding unique characters in badges
str_ = ''.join(df['badge'])
dfB = np.array([str_])
dfbadges = dfB.astype(np.object)
x =np.unique(dfbadges)

#Filling the matrix
x = df['badge']
for i in x:
  for char in x[::]: 

Это неполно, я не знаю, что делать дальше. Я должен назначить индекс уникальным значкам, чтобы он мог легко добавить частоту в матрицу.

...