Я бы посоветовал связаться с кем-то вроде Фей Ся из Университета Вашингтона, который работал в банке Penn Treebank и был экспертом по шляпам, или с некоторыми людьми из Penn.
Создание полноценного банка деревьев для анализа и тегирования не является тривиальной задачей. Что именно ты пытаешься сделать? Какова цель?
-parsing / мечения?
-семантика?
-информационная добыча?
-phonetics
Честно говоря, согласно комментариям, это звучит как проект для всей команды лингвистов.