как дифференцировать предложения с антонимами, используя word2vec - PullRequest
0 голосов
/ 21 ноября 2018

Скажем, у меня есть два предложения, которые похожи, за исключением того, что есть только одно другое слово с противоположным значением.например, "I like her" против "I hate her".word2vec используется в моем проекте классификации.Насколько я знаю, word2vec кажется неспособным выяснить различия между антонимами.Есть ли способ решить эту проблему?

1 Ответ

0 голосов
/ 21 ноября 2018

К сожалению, то, что мы считаем «антонимами», обычно очень похоже в координатных пространствах word2vec.Это потому, что такие слова очень похожи почти во всех отношениях - за исключением для одного контраста, который они подчеркивают.

И, кроме того, в той степени, в которой эти контрасты могут быть охвачены ориентациями word2vec, они будут во многих различных направлениях.Контраст «hot» -ss-«холодный» будет отличаться от «light» -vs-«dark» и «small» -ss-«big».

Возможно, существует некоторая аналитическая техниканаборы слов-векторов, которые помогают обнаружить антонимные направления / пары, но я не заметил ни одного обсуждаемого, особенно ничего простого, интуитивно понятного или применимого к общим наборам слов-векторов.(Если вы знаете, что слова противоположны, как, например, при рассмотрении ранее обозначенных лексиконов или вопросов аналогии, то направления между их словами могут быть полезны в другом анализе, например, при обнаружении других слов, которые контрастируют в том же самомКстати, как при решении аналогичных задач.)

Можете ли вы быть более точным в отношении своей конечной цели, предоставив больше примеров того, какие у вас будут входные данные и какие конкретные результаты вы хотите, чтобы программное обеспечение сообщало?

Один приведенный вами пример, "I like her" против "I hate her", можно более широко рассматривать как классификацию sentiment , и классификаторы на основе word2vec могут работать нормально (хотя и далеко не идеально)на такие проблемы.То есть с достаточным количеством помеченных обучающих данных классификатор с большим количеством примеров «положительных» и «отрицательных» текстов будет стремиться понять, что «как» (и похожие слова) являются положительными, а «ненависть» (и подобные) отрицательнымии делайте ОК с другими вариантами положительных / отрицательных утверждений (исключая более сложные конструкции, такие как отрицания, тонкие квалификации, занижение, ирония и т. д.)

Так что больше информации о том, что именно вы надеетесь обнаружить / сообщить,и то, что вы попробовали и сочли недостаточным, может породить больше идей о том, как этого добиться.

...