система обеспечения качества, основанная на знаниях, не дающая наиболее подходящий ответ - PullRequest
3 голосов
/ 23 марта 2012

Я работаю над проектом, который в основном основан на системе ответов на вопросы. Моя система принимает запрос от пользователя, загружает соответствующие документы из Википедии, удаляет все HTML-теги и извлекает простой текст. После этого он разбивает документ на предложения, а затем формирует матрицу term-document (TD) (запрос также передается как предложение). Эта TD-матрица затем пересылается в алгоритм pLSA (вероятностного латентного анализа). Затем, наконец, вычисляется косинусное сходство между векторами документа (предложения) с вектором запроса. На основе сходства с вектором запроса наиболее релевантное предложение отображается как ответ. (Стемминг также делается при формировании TD Matrix). Проблема в том, что он отображает результат, но не самый актуальный. Куда я иду не так? Правильна ли стратегия, которой я придерживаюсь, или существует какой-либо другой алгоритм, который может помочь? Ниже я показываю некоторые вопросы и ответы на них, возвращенные моей системой:

What is photosynthesis?
ANSWER  1 :   The stroma contains stacks (grana) of thylakoids, which are the site of photosynthesis 

ANSWER  2 :   Factors leaf is the primary site of photosynthesis in plants 

ANSWER  3 :   Samuel Ruben and Martin Kamen used radioactive isotopes to determine that the oxygen liberated in photosynthesis came from the water 

ANSWER  4 :   In plants, algae and cyanobacteria, photosynthesis releases oxygen 

Другой вопрос

What is Artificial Intelligence?
ANSWER  1 :   the problem of creating 'artificial intelligence' will substantially be solved" 

ANSWER  2 :   37 The leading-edge definition of artificial intelligence research is changing over time 

ANSWER  3 :   Stories of these creatures and their fates discuss many of the same hopes, fears and ethical concerns that are presented by artificial intelligence 

ANSWER  4 :   History of artificial intelligence and Timeline of artificial intelligence Thinking machines and artificial beings appear in Greek myths , such as Talos of Crete , the bronze robot of Hephaestus , and Pygmalion's Galatea 13 Human likenesses believed to have intelligence were built in every major civilization 

Другой вопрос

Who is a hacker?

ANSWER  1 :   19 Hackers (short stories) Helba from the  

ANSWER  2 :   16 Rafael Núñez aka RaFa was a notorious most wanted hacker by the FBI since 2001 

ANSWER  3 :   Often, this type of 'white hat' hacker is called an ethical hacker 
ANSWER  4 :   Hackers also commonly use port scanners  

очередной прогон

What is biology?
ANSWER  1 :   Molecular biology is the study of biology at a molecular level 

ANSWER  2 :   molecular biology studies the complex interactions of systems of biological molecules 

ANSWER  3 :   The similarities and differences between cell types are particularly relevant to molecular biology 

ANSWER  4 :   Contents History Foundations of modern biology 2 

Ответы [ 2 ]

2 голосов
/ 23 марта 2012

Это хорошо изученная проблема, называемая Вопрос-ответ (QA). Я предоставил резюме о QA в другой ответ . В частности, все ваши примеры подпадают под категорию «вопросов определения», согласно TREC . Я предлагаю ознакомиться с некоторыми статьями по запросу «Вопросы об определении TREC» на Google или Google Scholar для идей.

1 голос
/ 23 марта 2012

Я думаю, что будет сложно улучшить вашу систему, если вы будете придерживаться полного статистического подхода.С точки зрения статистики НЛП, вы действительно делаете правильные вещи.Теперь вы можете настроить некоторые параметры.Чтобы сделать это, вы должны построить учебный корпус, указав системе, какой ответ является правильным ... и затем посмотреть, какое значение должен принимать параметр, чтобы дать вам этот ответ.

При этом яНе думайте, что параметры точной настройки повысят вашу точность более чем на 20% ~ 30%.

Если вы хотите пойти дальше, вам понадобится более семантический подход и символическое представление знаний.Проверьте, например, http://www.jfsowa.com/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...