Корейский, тайский и индонезийский POS-тегер - PullRequest
7 голосов
/ 12 марта 2011

Кто-нибудь может порекомендовать POS-тег с открытым исходным кодом для корейского, индонезийского, тайского и вьетнамского языков?

Это я могу использовать, чтобы пометить данные корпуса, которые у меня есть в настоящее время. (например, Стэнфордский постаггер )

Если вы являетесь разработчиком и хотите поделиться и позвольте мне проверить POS-тегер, я тоже не против.

С некоторыми модификациями вывода я пометил вьетнамские данные в POS jvntextpro

Но я все еще хотел бы получить больше информации о тегах POS для Кореи, Индонезии и Таиланда.

Ответы [ 2 ]

5 голосов
/ 14 апреля 2011

После acl wiki: Корейский морфологический анализатор и метка части речи

Я бы начал искать на сайтах исследовательских отделов НЛП в Корее, Таиланде и Корее. На этой странице вы найдете ссылки на исследовательские отделы.

Удачи!

ОБНОВЛЕНИЕ: OpenNLP имеет тайский PoS. Вот модели: http://opennlp.sourceforge.net/models/thai/ для PoS OpenNLP Tagger.

0 голосов
/ 20 ноября 2015

Возможно, вы захотите попробовать RDRPOSTagger : надежный, простой в использовании и независимый от языка инструментарий для POS и морфологических тегов.

(язык программирования: Python & Java)

RDRPOSTagger обеспечивает высокую производительность как в процессе обучения, так и в процессе тегирования. Кроме того, RDRPOSTagger достигает очень конкурентоспособной точности по сравнению с современными результатами. См. Экспериментальные результаты, включая скорость работы и точность мечения, в этой статье .

RDRPOSTagger теперь поддерживает предварительно обученные модели POS и морфологических тегов для 13 языков, включая тайский и вьетнамский.

...