Stanford Parser (который был указан в этом другом вопросе SO) сделает все, что вы перечислите.
Вы можете предоставить свои собственные POS-теги, но вам нужно будет выполнить некоторый перевод в набор Penn TreeBank, если они еще не в этом формате.Парсеры либо статистические, либо нет.Если это не так, вам нужен набор правил грамматики.Никакие парсеры действительно не созданы таким образом, за исключением игрушек, потому что они действительно плохие.Таким образом, вы можете положиться на статистические данные, которые использует Stanford Parser (без дополнительной работы с вашей стороны).Это, однако, означает, что статистика о ваших собственных тегах (если они не отображаются непосредственно на теги Penn TreeBank) будет игнорироваться.Но так как у вас в любом случае нет статистики для ваших тегов, этого следовало ожидать.
У них есть парсеры, обученные и для нескольких других языков, но вам понадобятся ваши собственные данные с тегами, если вы хотите перейти на языкони не доступны.С этим не обойтись, независимо от того, какой парсер вы используете.
Если вы знаете Java (и я предполагаю, что вы это знаете), то парсер Stanford очень прост и его легко запустить.Также их список рассылки является отличным ресурсом и довольно активным.