Вопрос для всех, кто использовал класс SimpleTagger из библиотеки Маллета для условных случайных полей (CRF). Предположим, что я уже использую многопоточную опцию для максимального количества доступных процессоров (это так): с чего бы мне начать, и какие вещи мне следует попробовать, если мне нужно, чтобы он работал быстрее?
Смежный вопрос: есть ли способ сделать что-то похожее на Stochastic Gradient Descent, что ускорило бы процесс обучения?
Тип обучения, который я хочу сделать, прост:
Input:
Feature1 ... FeatureN SequenceLabel
...
Test Data:
Feature1 ... FeatureN
...
Output:
Feature1 ... FeatureN SequenceLabel
...
(где функции - это результат обработки, которую я сделал для данных в своем собственном коде.)
У меня были проблемы с получением любого классификатора CRF, кроме Маллета, для приблизительной работы, но мне, возможно, придется вернуться назад и вернуться к одной из других реализаций или попробовать новую.