Вектор документа для TF-IDF - PullRequest
0 голосов
/ 10 октября 2019

Я читаю Информационный поиск книгу Дэвида Гроссмана и Офира Фридера , и мне трудно понять векторы документов.

ПослеПример книги, у меня есть 3 документа, а именно:

dl = "Shipment of gold damaged in a fire"

d2 = "Delivery of silver arrived in a silver truck"

d3 = "Shipment of gold arrived in a truck"

Я рассчитал TF, IDF и TF-IDF для документов. Для d1 мой TF был рассчитан как:

{'a': 0.14286, 'arrived': 0.0, 'damaged': 0.14286, 'delivery': 0.0, 'fire': 0.14286, 'gold': 0.14286, 'in': 0.14286, 'of': 0.14286, 'shipment': 0.14286, 'silver': 0.0, 'truck': 0.0}

, а мой TF_IDF был {'a': 0.0, 'arrived': 0.0, 'damaged': 0.06816, 'delivery': 0.0, 'fire': 0.06816, 'gold': 0.02516, 'in': 0.0, 'of': 0.0, 'shipment': 0.02516, 'silver': 0.0, 'truck': 0.0}

Как построены векторы документов? Я не могу найти способ. Таблица векторов документов (книга)

...