Я вычисляю косинусное расстояние между двумя текстовыми полями (описание и тема), используя набор данных в формате .tsv.
object | description | subject | label |
----------------------------------------------
myObject |myDescription |mySubject|mylabel |
Я могу вычислить косинус и распечатать результат для каждой строки в моем терминале:
with open("excel/dataset.csv.tsv", "r") as f:
for line in f:
parts = line.split("\t")
mytext = parts[2]
.........
def cos_sim(a, b):
dot_product = np.dot(a, b)
norm_a = np.linalg.norm(a)
norm_b = np.linalg.norm(b)
return dot_product / (norm_a * norm_b)
print(cos_sim(a,b))
Однако я хотел бы добавить столбец в свой файл .tsv, сообщающий для каждой строки соответствующее значение косинуса.
object | description | subject | label | cosine
----------------------------------------------------
myObject |myDescription |mySubject|mylabel | 0.1234
Как сделать Я это делаю?