У меня есть таблица, которая индексирует расположение слов в пачке документов.
Я хочу определить наиболее распространенные биграммы в наборе.
Как бы вы сделали это в MSSQL 2008 ?
таблица имеет следующую структуру:
LocationID -> DocID -> WordID -> Location
Я думал о том, чтобы попытаться сделать какое-то сложное соединение ... и я просто делаю свою голову.
Есть ли простой способ сделать это?
Я думаю, мне лучше отредактировать это в понедельник, чтобы повысить его в вопросах
Пример данных
LocationID DocID WordID Location
21952 534 27 155
21953 534 109 156
21954 534 4 157
21955 534 45 158
21956 534 37 159
21957 534 110 160
21958 534 70 161