У меня есть база данных со списком документов и словами внутри них. Каждая строка представляет термин. Что я хочу сделать, так это подсчитать, сколько документов содержит слово.
Итак, учитывая следующее:
+ doc + word +
+-------+--------+
+ a + foo +
+-------+--------+
+ a + foo +
+-------+--------+
+ a + bar +
+-------+--------+
+ b + bar +
+-------+--------+
Я бы получил результат
+ word + count +
+--------+---------+
+ foo + 1 +
+--------+---------+
+ bar + 2 +
+--------+---------+
Поскольку foo встречается только в одном документе (даже если он встречается дважды в этом документе), а полоса встречается в двух документах.
По сути, то, что (думаю) я должен сделать, это СЧЕТ слов, которые выдает следующий запрос,
SELECT DISTINCT word, doc FROM table
.. но я не могу понять это. Есть намеки?