Я читаю Информационный поиск книгу Дэвида Гроссмана и Офира Фридера , и мне трудно понять векторы документов.
ПослеПример книги, у меня есть 3 документа, а именно:
dl = "Shipment of gold damaged in a fire"
d2 = "Delivery of silver arrived in a silver truck"
d3 = "Shipment of gold arrived in a truck"
Я рассчитал TF
, IDF
и TF-IDF
для документов. Для d1
мой TF
был рассчитан как:
{'a': 0.14286, 'arrived': 0.0, 'damaged': 0.14286, 'delivery': 0.0, 'fire': 0.14286, 'gold': 0.14286, 'in': 0.14286, 'of': 0.14286, 'shipment': 0.14286, 'silver': 0.0, 'truck': 0.0}
, а мой TF_IDF
был {'a': 0.0, 'arrived': 0.0, 'damaged': 0.06816, 'delivery': 0.0, 'fire': 0.06816, 'gold': 0.02516, 'in': 0.0, 'of': 0.0, 'shipment': 0.02516, 'silver': 0.0, 'truck': 0.0}
Как построены векторы документов? Я не могу найти способ. Таблица векторов документов (книга)