В этой статье Изучение глубоко структурированных семантических моделей для веб-поиска с использованием данных Clickthrough , оно использует технику хеширования слов для преобразования горячего представления слова в (разреженный) вектор буквенных триграмм.
Насколько я понимаю, например, слово look
сначала разлагается на буквенные триграммы [#lo, loo, ook, ok#]
, а затем представляется в виде вектора с единицами для каждой из этих триграмм и нулями в других местах. Делая это, он может уменьшить размерность вектора слова, в то же время имея очень мало столкновений, как сказано в статье.
Моя путаница заключается в том, что обычно, если мы используем представления с набором слов для представления документа на основе горячего представления, мы просто подсчитываем вхождения каждого слова. Однако я могу себе представить, если мы будем использовать пакет слов, основанный на буквенных триграмм, легко будут разные слова, разделяющие общие шаблоны, поэтому представляется затруднительным восстановить информацию о том, какие слова находятся в документе таким представлением.
Я правильно понял? Как была решена эта проблема? или это не имеет значения для эксперимента с запросом / заголовком в статье?