Вы должны использовать инструмент или библиотеку для обработки естественного языка. В http://en.wikipedia.org/wiki/List_of_natural_language_processing_toolkits указан широкий диапазон, и вы можете использовать тот, который наиболее подходит для вашей проблемы или языка.
Большинство из них будут выполнять тегирование части речи (POSTagging), которое идентифицирует существительные, предлоги и т. Д. Затем они группируют POS в NounPhrase, verbPhrase и т. Д. Проще говоря:
Вы видите кота
анализируется как
NP (PP you) VP (VB see DT the NN cat)
пока
the cat sees you
анализируется как
NP (DT the NN cat) VP (VB sees PP you)
(схемы POS различаются)
«Вы» - это личное местоимение (PP), а если оно встречается в ПО, это объект.
Это становится сложнее, чем это, но это начало