Удалить общие слова, но когда попросили вернуть понятный контент? - PullRequest
2 голосов
/ 09 октября 2011

Мне было интересно, можно ли каким-то образом (может быть, с аглоритом) представить текст, подобный приведенному ниже, суммируя (удаляя общие слова)

Алые и синие надеты на клубной рубашке для большегочем сто лет, и клуб широко известен как «Blaugrana» в связи с названиями этих цветов на каталонском языке.

, но когда его просят, использовать сохраненные данныеи вернуть понятный контент.Может быть, не то же самое, но то, что вы легко понимаете.

Будет ли это использовать искусственный интеллект?Какие сегодня методы делают это?

Обновление (чтобы прояснить ситуацию): Я хочу знать, как компьютер может соединять ключевые слова для обеспечения понятного контента.Например, "Scarlet, blue, club, shirt" возвращается как "Scarlet and blue are the club shirt"

Ответы [ 3 ]

0 голосов
/ 09 октября 2011

Зачем вам это нужно? похоже, вам нужно сжатие, а не интеллектуальное удаление и восстановление слов. Попробуйте это:

function compress($text)
{
    return base64_encode(gzencode($text));
}
function decompress($text)
{
    return gzdecode(base64_decode($text));
}
0 голосов
/ 09 октября 2011

Есть 2 разных задания:

  1. Извлечение важная информация.
  2. Создание значимого контента.

Чтобы выполнить их оба, вы должны использовать какое-то значимое текстовое представление между (1) и (2). Лучший вариант, который я могу придумать, это использование онтологий. Сначала извлеките факты из свободного текста и поместите их в онтологию, затем сгенерируйте текст из этой онтологии. Что-то вроде это . В любом случае вам нужно извлечь фактов , а не ключевых слов .

0 голосов
/ 09 октября 2011

Ключевое слово "Суммирование текста".

Обновление : На основании вашего обновления я расширил свой ответ. Вы можете хранить свои документы в текстовом поисковике, таком как Lucene / Elasticsearch, и запрашивать ключевые слова (например, «Алый, Синий, Клуб, Рубашка» для получения соответствующих документов. Не совсем «наоборот»; дополнительный предметно-ориентированный анализ возвращаемых результатов запроса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...