У меня есть следующие данные в формате csv:
bi-gram term_frequency
health care 12
rfid chip 5
care health 8
Теперь я хочу сгенерировать матрицу совместного использования символов:
health care rfid chip
health 0 20 0 0
care 20 0 0 0
rfid 0 0 0 8
chip 0 0 8 0
Это текущее состояние моего кода, но я не знаю, как продолжить:
import csv
csv_file = "Mappe1.csv"
vocabulary = []
unigram1 = []
unigram2 = []
frequency_of_bigrams = {}
with open(csv_file, "r") as tdm:
csvreader = csv.reader(tdm, delimiter=';', quotechar='|')
next(tdm)
with open("Term_constellation.txt", "w") as text_file:
for row in csvreader:
frequency_of_bigrams[row[0]]=int(row[2])
for key in frequency_of_bigrams:
unigram1.append(key.split(' ')[0])
unigram2.append(key.split(' ')[1])
vocabulary = list(dict.fromkeys(unigram1+unigram2))
vocabulary.sort()
У меня есть особые проблемы с уравнением «A B» = «B A». Кто-нибудь может порекомендовать мне модуль, с помощью которого я могу найти здесь простой подход или, возможно, помочь мне в правильном мышлении?