Реконструкция ныне известного 17-летнего алгоритма поиска информации на основе цепей Маркова «Аподора» - PullRequest
7 голосов
/ 06 августа 2011

Пока мы все теребили свои пальцы, 17-летний канадский мальчик, очевидно, нашел алгоритм поиска информации, который:

a) выполняет с удвоенной точностью текущей и широко используемой модели векторного пространства

b) «довольно точно» идентифицирует похожие слова.

в) делает микропоиск более точным

Вот хорошее интервью .

К сожалению, я еще не нашел опубликованной статьи, но из уроков, которые я помню по графическим моделям и классам машинного обучения, которые я взял несколько лет назад, я думаю, что мы сможем восстановить его по его абстрактному представлению, и что он говорит об этом в интервью.

Из интервью:

Некоторые поиски находят слова, которые встречаются в похожих контекстах. Это довольно хорошо, но это следует за отношениями к первому степень. Мой алгоритм пытается следовать соединениям дальше. связи близкие считаются более ценными. В теории это следует связи в бесконечной степени.

И реферат помещает его в контекст:

Введен новый алгоритм поиска информации под названием «Аподора», использование предельных степеней марковских цепочечных матриц для определения модели для документов и сделать контекстные статистические выводы о семантике слов. Система внедрена и сравнена к модели векторного пространства. Особенно, когда запрос короткий, Новый алгоритм дает результаты примерно с двойной точностью и имеет интересные приложения для микроисследований.

Я чувствую, что кто-то, кто знает о матричных цепях или поиске информации, сразу сможет понять, что он делает.

Итак: что он делает?

1 Ответ

3 голосов
/ 09 августа 2011

Из-за использования таких слов, как «контекст» и того факта, что он ввел уровень статистической зависимости второго порядка, я подозреваю, что он делает что-то связанное с методом LDA-HMM, описанным в статье: Griffiths T., Steyvers М., Блей Д. и Тененбаум Дж. (2005). Интеграция тем и синтаксиса. Достижения в нейронных системах обработки информации. Существуют некоторые ограничения разрешения поиска из-за усреднения модели. Тем не менее, я завидую тому, чтобы делать такие вещи в 17 лет, и я надеюсь, что он сделал что-то независимое и, по крайней мере, постепенно лучше. Было бы круто даже другое направление на ту же тему.

...