Bing / Google / Flickr API: как найти изображение для каждого из 150 000 японских предложений? - PullRequest
3 голосов
/ 05 мая 2011

Я делаю проект по части речи и морфологического анализа японских предложений. Каждое предложение будет иметь свою собственную веб-страницу. Чтобы сделать эту страницу более наглядной, я хочу показать одну картинку, которая как-то связана с предложением. Например, для предложения «私 は 学生 で す» («Я студент») соответствующие картинки будут изображением школы, учебника японского языка, учащихся и т. Д. слово. Мой подход сейчас: используйте 2-3 существительных из каждого предложения и извлекайте первое изображение из результатов поиска, используя Bing Images API. Примечание: вся обработка предложения до этого момента была сделана на Java.


У меня есть пара вопросов: 1) что лучше (богатый корпус и мощный поиск), Google Images API, Bing Images API, Flickr API и т. Д. Для поиска существительных на японском языке? 2) как выбрать наиболее важное существительное в предложении, чтобы выполнить запрос в поисковой системе изображений без сложного моделирования темы и т. Д.? Спасибо!

Ответы [ 2 ]

1 голос
/ 28 мая 2011

Японская WordNet имеет ссылки на OpenClipart картинки. Это может быть другой соответствующий источник. Они описывают это в своей статье под названием «Улучшение японской WordNet».

0 голосов
/ 08 июня 2011

Я думал, что вы начнете с того, что выберете любое существительное перед は 、 、 и を и отдадите им приоритет - вероятно, в таком порядке.

Но это предполагает, что ваша пометка части речи достаточно хороша, чтобы правильно идентифицировать は = субъект (я полагаю, вы знаете, что は не всегда является маркером субъекта).

Я посмотрел на кучу примеров предложений здесь с учетом этой техники и нашел ее настолько хорошей, насколько можно было ожидать. За исключением случаев, когда ни один из них не используется, что является редкостью.

И такие предложения, как это, где вы должны подумать, возможно, ищите a и существительное перед ним в случае, когда нет を или は. Потому что, если вы заметите здесь, слово 人 (люди) на самом деле ничего не говорит вам о том, что говорится. Без правильного разбора контекста вы даже не узнаете, является ли существительное person или people .

人 年 交通事故 で ​​多 く の 人 が 死 に ま す (многие люди гибнут в дорожно-транспортных происшествиях каждый год)

Но в принципе, не могли бы вы реализовать систему приоритетов / резервных типов, подобную этой?

Кстати, я надеюсь, что все ваши предложения используют кандзи, или когда вы увидите は し (в одном из предложений, связанных с), вы не будете знать, показывать ли мост или палочки для еды - и показ неправильного, вероятно, не будет хорошим .

...