Если у вас есть большие корпуса на некоторых «необычных» языках (в смысле «тех, для которых было выполнено ограниченное количество компьютерной лингвистики»), повторение некоторых существующих работ по компьютерной лингвистике, уже выполненных для очень популярных языков (таких как английский) , Китайский, арабский, ...) - это совершенно подходящий проект (особенно в академической среде, но он может быть вполне подходящим и для промышленности - назад, когда я занимался компьютерной лингвистикой в IBM Research, я получил интересную оценку от объединения корпус для итальянского языка и повторение [[в относительно новом IBM Scientific Center в Риме]] очень похожую работу на то, что уже проделал исследовательский коллектив IBM в Йорктаун-Хайтс [[из которого я принимал участие]] для английского языка.
Тяжелая работа, как правило, заключается в поиске / подготовке таких корпусов (в то время это была определенно самая большая часть моей работы, несмотря на искреннюю помощь IBM в Италии, которая позволила мне связаться с издательскими фирмами, которые владели соответствующими данными).
Итак, вопрос вырисовывается масштабно, и только вы можете ответить на него: к каким корпусам у вас есть доступ, или вы можете получить доступ (и очистить и т. Д.), Особенно на «необычных» языках? Если все, что вы можете сделать, это, например, английский, используя уже популярные корпорации, то шансы сделать работу, которая является новой и интересной, конечно, сложнее, хотя, конечно, могут быть некоторые.
Кстати, я полагаю, вы серьезно думаете об обработке «письменного» текста, верно? Если бы у вас был корпус из разговорного материала (в идеале с хорошими стенограммами), возможности были бы безграничны (было гораздо меньше работы по обработке разговорного текста, например, для параметризации вариантов произношения с помощью разные носители одного и того же письменного текста - действительно, такие вопросы часто даже не упоминаются на курсах бакалавриата CL!).