Как создать корпус с открытым исходным кодом IMS и корпус для чтения NLTK? - PullRequest
1 голос
/ 18 февраля 2011

В настоящее время у меня есть куча .txtfiles. внутри каждого файла .txt каждое предложение отделяется новой строкой. как мне изменить его на формат IMS CWB, чтобы он читался CWB? а также в формат nltk.

Может кто-нибудь привести меня на страницу с инструкциями, чтобы сделать это? или есть страница руководства, чтобы сделать это, я попытался прочитать руководство, но я действительно не знаю. www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

Означает ли это, что я создаю каталог данных и реестра, а затем запускаю команду cwb-encode, и все это преобразуется в файл vrt? он конвертирует один файл за раз? Как я могу сценарий для запуска через несколько файлов в каталоге?

1 Ответ

2 голосов
/ 23 марта 2011

Легко создать "вертикальный" формат cwb из читаемого NLTK корпуса:

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

Оттуда вы можете следовать инструкциям на веб-сайте CWB .

...