IR и QA - Объем проекта для начинающих - PullRequest
1 голос
/ 19 ноября 2011

Я проводил мозговой штурм в рамках проекта бакалавриата в области вопросов и ответов.Проект, который имеет компоненты IR и NLP.

Первое, что появилось, это, конечно, фактоидальный ответ на вопрос, но это казалось уже побежденной проблемой.#IBM Watson!

Нефакторный QA кажется интересным, поэтому я взялся за него.Сейчас мы находимся на стадии завершения описания проекта.Итак, с амбициозной целью - ответить на любой вопрос, заданный пользователем, - мне нужно расширить наш проект.

Итак, я принял следующие решения:

  1. Это будет закрытый домен - Программирование на C ++
  2. Корпус будет состоять только из одного веб-сайта.(cplusplus или wikipedia) или только один документ (полная ссылка)
  3. Мы разработаем только один модуль всей архитектуры QA - Извлечение прохождения или Извлечение ответа.

Наш наставник настаиваетна реализацию уже существующего решения, для начала.Я застрял в этой точке, чтобы искать существующие реализации. Вот один .Но когда я прочитал требования среды, это было ошеломляюще.Существует много библиотек и наборов инструментов, но я не нашел ни одной нефакторной системы контроля качества, которую было бы полезно знать, по крайней мере, в очень небольшом масштабе.

Предложите хороший масштаб для проекта.Я хочу продолжить работу над этим через моих мастеров, так что это будет хорошим началом?У нас есть около 4 месяцев на проект, и важно не закончить исследовательским проектом.Он должен иметь ощутимый результат.

1 Ответ

0 голосов
/ 23 ноября 2011

Для IR у вас есть Lucene / Solr.

Для машинного обучения и nlp доступно множество библиотек, в основном на python и java, по крайней мере, удобных для пользователя.

Реализация системы Хойфунга довольно амбициозна, я бы пошел на что-то попроще. Вы смотрели на его код вообще?

Что-то, в чем вы могли бы найти множество вещей, - это проблемы BioNLP за последние несколько лет, но это также довольно сложные задачи.

Как насчет открытия обзора твиттера фильма? Т.е. на основе X твитов этот фильм отстой?

...