Предложить семантические теги для коротких фрагментов текста - PullRequest
4 голосов
/ 10 января 2012

Я заинтересован в создании списка предлагаемых семантических тегов (через ссылки на Freebase, Wikipedia или другую систему) для пользователя, который публикует короткий текстовый фрагмент.Я не пытаюсь «понять», что текст действительно говорит, или даже автоматически пометить его, я просто хочу предложить пользователю наиболее вероятные семантические теги для его / ее сообщения.Моя главная цель - заставить пользователей делать пометки семантически и, следовательно, последовательно, а не писать неоднозначные текстовые строки.Если бы на рынке был достаточно функциональный и недорогой инструмент, я бы использовал его.Я не нашел такого инструмента, поэтому я собираюсь написать свой собственный.

Мой вопрос, прежде всего, есть ли такой инструмент, с которым я не сталкивался.Я смотрел на Zemanta, AlchemyAPI и OpenCalais, и ни один из них, казалось, не предлагал мне нужную услугу.

Если предположить, что я пишу свою собственную, я буду делать это на Python (если не былодействительно веская причина использовать что-то еще).Моим первым предположением будет поиск n-граммов, соответствующих «сущностям» во Freebase, и предложение их в качестве тегов, возможно, поиск в описаниях сущностей, чтобы получить немного «умнее».Если этого оказалось недостаточно, я бы прочитал и погрузил пальцы в онтологическую воду.Поскольку это очень сложная проблема, и я не думаю, что мое приложение требует ее решения, я хотел бы как можно больше воздерживаться от реального семантического анализа.

Есть ли у кого-нибудь опыт?работать с системой семантической базы данных и может дать мне несколько советов относительно того, с чего начать и каких подводных камней ожидать?

1 Ответ

0 голосов
/ 10 января 2012

Взгляните на библиотеку питонов NLTK.Он содержит огромное количество инструментов, словарей и алгоритмов.

...