Ищете простую реализацию POS-тегера - PullRequest
0 голосов
/ 18 января 2020

Итак, проблема здесь в том, что существует слишком много возможных подходов, множество различных структур обучающих наборов и множество различных инструментов, которые могут использоваться для конкретного случая. Я заблудился в этом, поэтому мне нужен совет для простого подхода к моему делу.

Я подготовил набор обучающих данных, где каждая строка выглядит следующим образом

word _ lemma _ POStag

и каждое предложение обозначается пустой строкой

Теперь в тестовых данных в каждой строке есть слово, лемма и список из возможных POS-тегов, где мне нужно выбрать один из них, чтобы быть правильным. Это может быть основано на вероятности, извлеченной из обучающего набора.

При необходимости, у меня также есть список всех POS-тегов и их 8600 (я знаю, что это выглядит много, это не Engli sh tagset и есть перестановки таких вещей, как часть речи, кейс, пол и т. Д. c

Я видел такие ключевые слова, как Tensorflow, Keras, NTLK, встраиваемые слои, LSTM, softmax, кроссцентропия, Pickle , векторы, векторы перчаток, уни / биграммы и еще много чего, которые, вероятно, используются в 5 различных подходах, но они смешиваются в моей голове.

Так как я даже не знаю, где быть и не похоронить себя Я хотел бы выбрать самый простой из возможных подходов: он может быть основан на нейронной сети, он может быть основан на CRF, он может даже дать плохой результат, например, точность 60% - это всего лишь Po C.

...