Создание векторного пространства - PullRequest
0 голосов
/ 04 декабря 2018

У меня вопрос: у меня много документов и каждая строка построена по какому-то шаблону.Конечно, у меня есть этот массив паттернов.

Я хочу создать некоторое векторное пространство, а затем векторизовать эти паттерны по какому-либо правилу (я пока не имею представления о том, что это за правило ..) - т.е. сделатьэто паттерны, похожие на «центроиды» моего векторного пространства.Затем векторизовать каждую строку текущего документа (опять же по этому правилу) и подсчитать центроид шкалы до этой линии (т. Е. Минимальное расстояние между двумя векторами).

Я не знаю, как мне это сделатьэтот?Я знаю о библиотеках sklearn и CountVectorizer / TfidfVectorizer / HashingVectorizer - но это зависит от размера словаря.Но, опять же, у меня много документов, поэтому в словаре будет слишком много слов (если сделать так, но в следующем новом документе это может быть новое слово, которого не было бы в этом словаре.неправильный способ решения моей проблемы) Кроме того, библиотека Keras с ее предварительной обработкой текста не решит мою проблему два.Например, «один горячий» кодирует текст в список слов индексов размера.Но каждый документ может иметь разный размер и, конечно, порядок.Таким образом, сравнение двух векторов может дать большое расстояние, но на самом деле эти векторы (слова, которые кодируются этими векторами) очень похожи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...