Кодирование конкретного текстового генератора - PullRequest
1 голос
/ 10 ноября 2010

Мой друг занимается риэлторским бизнесом, и после того, как мне показали искусство написания копий для объявлений о недвижимости, я понял, что это очень формально. Особенно, если вы размещаете рекламу в Интернете, так как вы предварительно заполняете поля.

Естественно, я подумал о создании генератора, который в значительной степени автоматизирует написание рекламы. я не ожидаю, что он сгенерирует выдающуюся или даже очень хорошую копию, просто он может собрать слова и предложения, как это сделал бы человек.

У меня есть скелет / шаблон, который определяет рекламу, и я также собрал набор фраз и слов, которые можно выбрать случайным образом, но меня интересуют более общие аспекты кодирования такого генератора? Какие-нибудь предложения, советы или литературу, которые я могу прочитать, чтобы лучше понять этот маленький проект?

Ответы [ 2 ]

0 голосов
/ 10 марта 2011

Я бы сказал, что есть три основных подхода к такой проблеме, которые вы можете использовать, в зависимости от того, насколько гибкой должна быть система и сколько работы вы хотите в нее внести.Самое простое - это рассматривать ее как проблему генерации отчетов в соответствии с предложением Рика.Это, вероятно, способ, которым я пошел бы, чтобы произвести первый проект листинга.Результаты будут чистыми шаблонами, но копирайтер может быстро проверить каждый список.

Если вы хотите получить фантазию, вы можете прийти к этому как к проблеме создания естественного языка.Вы начнете с некоторого представления знаний, описывающего значение списка и набора правил (скажем, преобразователей конечных состояний) для отображения значений в лингвистические формы.Есть много академической литературы о подобных вещах, хотя в наши дни она не в моде.Начать можно с книги Блэкберна и Бос или пакета NLTK (особенно с некоторыми проектами из пакета contrib).

Третий способ сделать это состоит в том, чтобы рассматривать это как проблему перевода, по сути «переводя» записи базы данных в рекламную копию.Вы начнете с большой коллекции списков и соответствующей рекламы, написанной человеком, и построите статистическую модель отношений между ними. Moses / Giza ++ - инструмент общего назначения для построения и применения таких моделей.

0 голосов
/ 12 ноября 2010

использование метаданных о листинге будет одним из способов.

Скажем, для данного дома у вас есть следующие атрибуты:

(тип: бунгало, кв. Футы: <= 1400) </strong> Вы можете использовать фразу «уютный коттедж».

спальни: очевидно, то же самое с ванными комнатами.Предположим, используя слово «Большой», «Средний» и т. Д.

гаражные места: если> 2 , то «Можно парковать много машин» и т. Д.

Вы можете пойти еще дальше сс учетом широты / долготы адреса, есть веб-сервисы, где вы можете найти количество парков поблизости, криминал в округе и т. д.

Рик

...