Пометка части речи (POS) очень специфична для определенного [естественного] языка. NLTK включает в себя множество различных тегеров, которые используют различные методы для вывода тега данного токена в данном токене. Большинство (но не все) из этих тегеров используют статистическую модель в качестве основного или единственного устройства, чтобы «сделать свое дело». Такие тегеры требуют некоторых «обучающих данных», на которых строится это статистическое представление языка, и обучающие данные поступают в форме корпусов.
Сам дистрибутив NTLK включает в себя многие из этих корпусов, а также набор «читателей корпусов», которые предоставляют API для чтения различных типов корпусов. Я не знаю, как обстоят дела в самой НТЛК, и включает ли это какой-либо немецкий корпус. Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем вам нужно будет конвертировать в формат, который удовлетворяет требованиям соответствующего читателя NTLK, и затем вы можете использовать это для обучения POS-тегера для немецкого языка.
Вы даже можете создать свой собственный корпус, но это адская кропотливая работа; если вы работаете в университете, вы должны найти способы подкупа или иного принуждения студентов сделать это за вас ;-)