Я ищу способ построения иерархии слов.
Справочная информация. Я - "любитель" энтузиастов обработки естественного языка, и сейчас одна из проблем, которые меня интересуют, - это определение иерархии семантики слов из группы слов.
Например, если у меня есть набор, который содержит «супер» представление других, то есть
[cat, dog, monkey, animal, bird, ... ]
Мне интересно использовать любую технику, которая позволила бы мне извлечь слово «животное», которое имеет наиболее значимое и точное представление других слов в этом наборе.
Примечание: они НЕ одинаковы по смыслу. кошка! = собака! = обезьяна! = животное
НО кошка - это подмножество животных, а собака - это подмножество животных.
Теперь я знаю, что многие из вас будут говорить мне использовать Wordnet. Ну, я постараюсь, но на самом деле я заинтересован в создании предметной области, которая не применима к WordNet, потому что:
1) Большинство слов не найдены в Wordnet
2) Все слова на другом языке; перевод возможен, но имеет ограниченный эффект.
другой пример:
[ noise reduction, focal length, flash, functionality, .. ]
так что функциональность включает в себя все в этом наборе.
Я также пытался сканировать страницы википедии и применять некоторые приемы к td-idf и т. Д., Но страницы википедии тоже мало что делают.
Может ли кто-нибудь просветить меня, в каком направлении должны идти мои исследования? (Я мог бы использовать что угодно)