В настоящее время у меня есть куча .txtfiles. внутри каждого файла .txt каждое предложение отделяется новой строкой. как мне изменить его на формат IMS CWB, чтобы он читался CWB? а также в формат nltk.
Может кто-нибудь привести меня на страницу с инструкциями, чтобы сделать это? или есть страница руководства, чтобы сделать это, я попытался прочитать руководство, но я действительно не знаю. www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
Означает ли это, что я создаю каталог данных и реестра, а затем запускаю команду cwb-encode, и все это преобразуется в файл vrt? он конвертирует один файл за раз? Как я могу сценарий для запуска через несколько файлов в каталоге?