У меня есть файл с x количеством имен строк и связанных с ними идентификаторов. По сути, два столбца данных.
То, что я хотел бы, - это таблица стилей корреляции с форматом x по x (имеющая рассматриваемые данные как по оси x, так и по оси y), но вместо корреляции мне бы хотелось, чтобы функция fuzzywuzzy из библиотеки fuzz. Соотношение (x, y) в качестве выходных данных с использованием имен строк в качестве входных данных. По сути, работает каждая запись против каждой записи.
Это то, что я имел в виду. Просто чтобы показать мои намерения:
import pandas as pd
from fuzzywuzzy import fuzz
df = pd.read_csv('random_data_file.csv')
df = df[['ID','String']]
df['String_Dup'] = df['String'] #creating duplicate of data in question
df = df.set_index('ID')
df = df.groupby('ID')[['String','String_Dup']].apply(fuzz.ratio())
Но, очевидно, этот подход сейчас не работает для меня. Любая помощь приветствуется. Это не обязательно должны быть панды, это просто среда, с которой я относительно хорошо знаком.
Я надеюсь, что моя проблема четко сформулирована, и действительно, любой вклад приветствуется,