Я пытаюсь запустить вложение слова GloVe в набор данных Bengali
новостей. Теперь исходный исходный код GloVe не имеет никакого поддерживаемого языка, кроме английского sh, но я обнаружил этот , в котором есть векторы слов, предварительно обученные для 30 неанглийских sh языков.
I Я использую этот блокнот по классификации текста с использованием вложений GloVe . Мой вопрос:
Могу ли я использовать предварительно обученные векторы бенгальских слов с моим пользовательским набором данных Bengali
и работать на этой модели?
этот предварительно обученный вектор бенгальских слов находится в формате tsv
. Используя следующий код, я не могу разобрать его на списки word-vector
.
embeddings_index = {}
f = open(root_path + 'bn.tsv')
for line in f:
values = line.split('\t')
word = values[1] ## The first entry is the word
coefs = np.asarray(values[1:], dtype='float32') ## These are the vecotrs representing the embedding for the word
embeddings_index[word] = coefs
f.close()
print('GloVe data loaded')
, и я получаю сообщение об ошибке
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-39-3a4cb8d8dfb0> in <module>()
4 values = line.split('\t')
5 word = values[1] ## The first entry is the word
----> 6 coefs = np.asarray(values[1:], dtype='float32') ## These are the vecotrs representing the embedding for the word
7 embeddings_index[word] = coefs
8 f.close()
/usr/local/lib/python3.6/dist-packages/numpy/core/_asarray.py in asarray(a, dtype, order)
83
84 """
---> 85 return array(a, dtype, copy=False, order=order)
86
87
ValueError: could not convert string to float: 'এবং'