Ручная маркировка слов для НЛП - PullRequest
0 голосов
/ 19 марта 2019

Я новичок в машинном обучении, назвал распознавание сущностей, и мне поручено вручную пометить мои данные в сотнях абзацев, чтобы переобучить двунаправленную модель LSTM. Есть ли лучший подход к этому, или мне нужно просмотреть весь контент и вручную пометить каждую организацию, человек?

Ответы [ 2 ]

0 голосов
/ 19 марта 2019

Нет ответа «да» или «нет» на ваш вопрос.Я полагаю, вам нужно будет использовать какой-то неконтролируемый подход, чтобы подготовить ваш контролируемый набор данных.

TextRank может быть очень полезным для вас.

В противном случае я быПредложите (после того, как вы выполните обычную предварительную обработку, например, нижний регистр, удаление пунктуации и т. д.), примените word2vec (или любой тип векторизации слова), а затем какой-нибудь тип кластеризации, такой как K-means или даже лучше DBSCAN.

Таким образом, вы сможете визуально разделить «темы / темы» в своем наборе данных, а затем создать простой скрипт для их пометки.

Надеюсь, что это имеет смысл и будет полезно.

0 голосов
/ 19 марта 2019

Я не совсем уверен, понимаю ли я вопрос, но это не так, как будто вы должны прочитать весь корпус. Просто объедините весь корпус в набор слов, просмотрите этот набор и найдите все, что является сущностью. Вам нужно быть осторожным с тем, как вы обрабатываете текст (например, не можете писать все строчными буквами b.c., затем Apple -> apple, и вы пропустите эту сущность). Некоторые пакеты будут поставляться с уже признанными сущностями (например, SpaCy уже распознает НАТО), но ваш корпус, вероятно, будет иметь некоторые особые сущности (это зависит от корпуса и программного обеспечения, которое вы используете).

...