Срок совместного появления униграммных комбинаций с данными биграмм в питоне - PullRequest
0 голосов
/ 06 июня 2019

У меня есть следующие данные в формате csv:

bi-gram        term_frequency  

health care    12           
rfid chip       5
care health     8

Теперь я хочу сгенерировать матрицу совместного использования символов:

       health   care   rfid   chip
health   0       20     0      0
care     20      0      0      0
rfid     0       0      0      8
chip     0       0      8      0

Это текущее состояние моего кода, но я не знаю, как продолжить:

import csv
csv_file = "Mappe1.csv"
vocabulary = []
unigram1 = []
unigram2 = []
frequency_of_bigrams = {}
with open(csv_file, "r") as tdm:
    csvreader = csv.reader(tdm, delimiter=';', quotechar='|')

    next(tdm)
    with open("Term_constellation.txt", "w") as text_file:
        for row in csvreader:           
            frequency_of_bigrams[row[0]]=int(row[2])

for key in frequency_of_bigrams:
    unigram1.append(key.split(' ')[0])
    unigram2.append(key.split(' ')[1])

vocabulary = list(dict.fromkeys(unigram1+unigram2))
vocabulary.sort()

У меня есть особые проблемы с уравнением «A B» = «B A». Кто-нибудь может порекомендовать мне модуль, с помощью которого я могу найти здесь простой подход или, возможно, помочь мне в правильном мышлении?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...