Путаница с хешированием слов в DSSM? - PullRequest
0 голосов
/ 08 мая 2018

В этой статье Изучение глубоко структурированных семантических моделей для веб-поиска с использованием данных Clickthrough , оно использует технику хеширования слов для преобразования горячего представления слова в (разреженный) вектор буквенных триграмм.

Насколько я понимаю, например, слово look сначала разлагается на буквенные триграммы [#lo, loo, ook, ok#], а затем представляется в виде вектора с единицами для каждой из этих триграмм и нулями в других местах. Делая это, он может уменьшить размерность вектора слова, в то же время имея очень мало столкновений, как сказано в статье.

Моя путаница заключается в том, что обычно, если мы используем представления с набором слов для представления документа на основе горячего представления, мы просто подсчитываем вхождения каждого слова. Однако я могу себе представить, если мы будем использовать пакет слов, основанный на буквенных триграмм, легко будут разные слова, разделяющие общие шаблоны, поэтому представляется затруднительным восстановить информацию о том, какие слова находятся в документе таким представлением.

Я правильно понял? Как была решена эта проблема? или это не имеет значения для эксперимента с запросом / заголовком в статье?

1 Ответ

0 голосов
/ 08 мая 2018

Однако я могу себе представить, если мы будем использовать пакет слов, основанный на буквенных триграммах, легко будут разные слова, разделяющие общие шаблоны, поэтому представляется затруднительным восстановить информацию о том, какие слова находятся в документе таким представлением.

Это верно, потому что модель явно не нацелена на изучение апостериорных вероятностей, используя информацию из слов. Скорее он использует информацию из триграмм.

Как была решена эта проблема? или это не имеет значения для эксперимента с запросом / заголовком в статье?

Эту проблему можно решить, добавив слой CNN / LSTM, чтобы представить более высокую (близкую к словам) абстракцию от входов триграммы. Исследование, о котором сообщалось в этой статье , использует CNN поверх входов триграмм, как показано ниже.

enter image description here

...