Думайте о каждом документе и поисковом термине как о векторе, координаты которого представляют некоторую меру того, насколько важно каждое слово во всем корпусе документов для данного конкретного документа или поискового термина. Сходство говорит вам расстояние между двумя разными векторами.
Скажем, ваш корпус нормализован, чтобы игнорировать некоторые термины, тогда документ, состоящий только из этих терминов, будет расположен в начале графика всех ваших документов в векторном пространстве, определенном вашим корпусом. Каждый документ, который содержит некоторые другие термины, затем представляет точку в пространстве, координаты которой определяются важностью этого термина в документе относительно этого термина в корпусе. Два документа (или документ и поиск), координаты которых располагают свои «точки» ближе друг к другу, более похожи, чем те, чьи координаты размещают их «точки» дальше друг от друга.