FastText и наборы данных в Azure ML с Python - PullRequest
0 голосов
/ 07 февраля 2020

Я запускаю эксперимент (пользовательская модель, созданная с помощью Pytorch) в Azure ML и использую FastText (не версия gensim), но столкнулся с проблемой:

В эксперименте у меня есть (довольно большой) текстовый файл в наборе данных и должен обучать FastText с ним, но fasttext.train_unsupervised принимает только имя файла в качестве ввода.

Пожалуйста, как мне работать с FastText в контексте Azure наборы данных ML?

Заранее спасибо!

1 Ответ

0 голосов
/ 08 февраля 2020

Ну, только что выяснил:

Вы можете смонтировать набор данных Azure ML в качестве каталога и получить FastText из него таким образом:

import fasttext
from azureml.core import Dataset
from azureml.core.workspace import Workspace

ws = Workspace.from_config()
dset = Dataset.get_by_name(workspace=ws, name='thenameofyourdataset')

dset.mount('afoldernameyoujustinvented')
embedding = fasttext.train_unsupervised('afoldernameyoujustinvented/myfilename.txt')

Другими словами: Вы монтируете свой набор данных в виртуальную папку и используете эту виртуальную папку, как если бы она была (и, вероятно, скрытой) это настоящая папка с файлами в вашем наборе данных.

Приветствия!

...