Проект машинного обучения / поиска информации - PullRequest
1 голос
/ 29 сентября 2010

Я читаю по направлению к магистратуре в области компьютерных наук и только что закончил первый год обучения. (Это двухлетний курс). Вскоре я должен представить предложение для M.Sc. Проект. Я выбрал следующую тему.

«Пригодность машинного обучения к ранжированию документов в информационно-поисковой системе». Исследователи использовали различные алгоритмы машинного обучения для ранжирования документов. Таким образом, в качестве первого этапа проекта я проведу полный обзор литературы и выясню преимущества / недостатки существующих подходов. На втором этапе проекта я буду предлагать новый (модифицированный) алгоритм для преодоления ограничений существующих подходов.

На самом деле мой вопрос, подходит ли этот тип проекта в качестве магистра. проект? Более того, если у кого-то есть интересная идея в области поиска информации, можно ли поделиться этими идеями со мной.

Спасибо

Ответы [ 2 ]

6 голосов
/ 06 октября 2010

Ранжирование всегда самая сложная часть любой из систем поиска информации.Я думаю, что это очень хорошая тема, но вы должны позаботиться о том, чтобы - как можно скорее - определить объем работы.Вероятно, вы не сможете разработать новый механизм IR, а скорее создадите прототип на основе, например, apache lucene.

В настоящее время существует множество наборов данных, включая дамп данных stackoverflow, который предоставит вам всю необходимую информацию.определить богатый вектор характеристик (количество точек, время, вы можете найти темы предыдущего вопроса и т. д., популярность тега) для своего алгоритма ранжирования машинного обучения.В этой части работы вы могли бы, например, классифицировать типы функций (например, специфичные для пользователя, семантические функции - название программного обеспечения в заголовке) и выполнить серию экспериментов, чтобы узнать, какие функции являются наиболее важными, а какие нет для данного набора данных.,

Вторым направлением такого проекта может быть эффективное выполнение обучения.Причиной этого является количество данных на веб-форумах или форумах сообщества, а также изменения на форуме (это будет важно, если вы воспользуетесь особенностями сообщества), например, изменения в технологиях, выпуск нового программного обеспечения и т. Д.

Есть много других тем, связанных с поиском и машинным обучением.Лучшая идея - поискать на scholar.google.com последние опросы о ранжировании, машинном обучении и поиске, чтобы узнать, что является современным.Следующий шаг - поговорить с вашим руководителем MSc.

Удачи!

1 голос
/ 05 октября 2010

Все, что вы сказали, хорошо и должно быть сделано, но вы забыли самую важную часть:

Докажите, что ваш алгоритм лучше и / или быстрее, чем другие алгоритмы, с хорошими экспериментами и, возможно, некоторой статистикой (p-значение, доверительный интервал).

Если вы сделаете это и убедите людей в том, что ваш алгоритм полезен, вы наверняка не ошибетесь:)

...