Тематическая модель LDA Sagemaker - как получить доступ к параметрам обучаемой модели?Также есть простой способ получить согласованность - PullRequest
0 голосов
/ 28 февраля 2019

Я новичок в Sagemaker и провожу некоторые тесты для измерения производительности NTM и LDA на AWS по сравнению с молотком LDA и родной моделью LDA Gensim.

Я хочу проверить обученные модели наSagemaker и посмотрите на вещи, например, какие слова имеют наибольший вклад для каждой темы.А также для определения степени согласованности модели.

Мне удалось успешно определить, какие слова имеют наибольший вклад для каждой темы для NTM в Sagemaker, загрузив выходной файл без его разархивирования и разархивировав его, чтобы открыть 3 файла параметров, symbol.json и meta.json.

Однако, когда я пытаюсь проделать тот же процесс для LDA, не заархивированный выходной файл не может быть распакован.

Возможно, я что-то упустил или должен сделать что-то другое для LDA по сравнению с NTM, ноЯ не смог найти никакой документации по этому вопросу.Кроме того, кто-нибудь нашел простой способ расчета согласованности модели?

Любая помощь будет принята с благодарностью!

1 Ответ

0 голосов
/ 02 марта 2019

Этот ноутбук SageMaker , в котором подробно рассматриваются научные подробности LDA, также демонстрирует, как проверять артефакты модели.В частности, как получить оценки для Dirichlet до alpha и матрицы распределения тематических слов beta.Вы можете найти инструкции в разделе «Проверка обученной модели» .Для удобства я воспроизведу соответствующий код здесь:

import tarfile
import mxnet as mx

# extract the tarball
tarflie_fname = FILENAME_PREFIX + 'model.tar.gz' # wherever the tarball is located
with tarfile.open(tarfile_fname) as tar:
    tar.extractall()

# obtain the model file (should be the only file starting with "model_")
model_list = [
    fname
    for fname in os.listdir(FILENAME_PREFIX)
    if fname.startswith('model_')
]
model_fname = model_list[0]

# load the contents of the model file into MXNet arrays
alpha, beta = mx.ndarray.load(model_fname)

Это должно дать вам данные модели.Обратите внимание, что темы, которые хранятся в виде строк beta, не представлены в каком-либо определенном порядке.

...