Поиск по описаниям - PullRequest
       19

Поиск по описаниям

1 голос
/ 14 сентября 2009

Есть фильм, название которого я не могу вспомнить. Речь идет о карнавале или парке развлечений с домом ужасов и группой подростков, которых убивают один за другим чем-то в маске клоунов. Я видел этот фильм около 20 лет назад, и это продолжение, но точно не помню его. (И также забыл его название.) В результате я начал задумываться о том, как решить что-то техническое.

Предположим, у меня есть база данных с сюжетом сюжета и другими данными каждого опубликованного фильма. (Что-то вроде IMDb .) И у меня будет поле для редактирования, где пользователь может просто ввести описание в виде простого текста. Затем система начнет анализ этого текста, чтобы найти фильмы, которые соответствуют данному описанию.

Например (другой фильм), я ввожу это в поле редактирования: «Какой-то фильм о египетском царе, который нападает на группу индейцев верхом на лошади, но он тяжело ранен, и его лошадь умирает, когда он проиграл эту битву». Система должна сообщить о фильме «Александр» 2004 года в качестве ответа, но, возможно, еще несколько. (Даже допустив несколько ошибок в описании.)

Чтобы создать такую ​​систему, в которой описание будет проанализировано, чтобы найти подходящую запись путем поиска по описаниям, какие методы мне понадобятся для чего-то более сложного? Не то чтобы я хотел создать что-то подобное прямо сейчас, но скорее из любопытства, если я когда-нибудь захочу поднять какой-нибудь интересный новый проект.

(Я хотел получить дополнительные баллы для тех, кто узнает фильм, о котором я упоминал в начале. Но одна попытка Google позже, и я нашел его сам!)

Кстати, меня интересует не сама поисковая система, а анализ описания, чтобы понять, что поисковая система поймет! С примером фильма, это человеческая логика, которая помогла мне найти название. (И раздражает, что этот фильм не продается в Нидерландах.) Человеческая логика всегда будет требованием, но она касается анализа пользовательского ввода в форме истории или описания с возможными ошибками.

Ответы [ 4 ]

1 голос
/ 14 сентября 2009

Вы можете сделать много интересного с помощью поиска по ключевому слову imdb:

http://akas.imdb.com/keyword/carnival/clown/murder/

Вы можете указать несколько ключевых слов, например, фильмы и другие ключевые слова, которые находятся в аналогичном контексте с заданными вами ключевыми словами.

Данные, содержащиеся в imdb, доступны для некоммерческого использования и могут быть загружены в виде текстовых файлов. Вы можете построить базу данных из него.

1 голос
/ 14 сентября 2009

Чистые домыслы: было бы что-то тривиальное, например, брать каждое слово из более чем 4 букв в описании «Египетский, индийский, конный бой и т.д.» а нечеткое сопоставление с базой данных таких резюме работает? Возможно, с некоторой нормализацией, например. король == лидер == император?

Хммм ... Юноша, девушка, бассейн, мама, свадьба, это приводит нас к выпускнику? Ну, я думаю, с небольшим количеством специфики "Робинсон" это могло бы.

1 голос
/ 14 сентября 2009

Вы должны проверить классификацию документов.

Несколько методов классификации документов

1 голос
/ 14 сентября 2009

Что я могу сказать по вашим собственным комментариям, Google - это метод, который нужно использовать. ;-) Но, честно говоря, я думаю, что более или менее подойдет любая поисковая система.

Редактировать: хе, вы удалили свой комментарий, но я помню, что вы упомянули Google как заслуживающий дополнительных баллов .

Edit +: хорошо, вы снова упомянули Google, но я не хочу удалять мое первое изменение. ; -)

...