Извлечение слов из текстового поля в SQL - PullRequest
0 голосов
/ 30 октября 2009

В настоящее время я создаю небольшую CMS для небольшого сайта. Теперь я хочу извлечь все слова из поля text_content и сохранить их в моей таблице word для последующего анализа.

page( id int, 
      title varchar(45),
      # ... a bunch of meta fields ...  
      html_content text,
      text_content text);

word( page_id int,        # Foreign key
      word varchar(100)); # I presume there are no words longer than 100 chars

В настоящее время я использую следующий код, который выполняется очень медленно (понятно) для больших кусков текста.

// Sidenote: $_POST is sanitized above scope of this code.
$_POST['text_content'] = str_replace("\t", "", 
         htmlspecialchars_decode(strip_tags($_POST['html_content'])));

// text is in swedish, so we add support for swedish vowels
$words = str_word_count($_POST['text_content'], 1, "åäöÅÄÖ");

// Delete all previous records of words
$this->db->delete("word", array('page_id' => $_POST['id']));

// Add current ones
foreach($words as $word)
{
    if (trim($word) == "")
        continue;

    $this->db->query("INSERT INTO word(page_id, word) VALUES(?, ?)", 
                      array($_POST['id'], strtolower(trim($word))));
}

Теперь я не доволен этим решением. Я думал о создании триггера в базе данных, который будет делать почти то же самое, что и версия php. Можно ли создать в MySQL триггер, который бы выполнял указанные действия, если да, то как? Или есть лучший способ? Я к этому безумно отношусь?

Ответы [ 3 ]

4 голосов
/ 30 октября 2009

Вы можете значительно ускорить этот PHP-код, создав отдельный запрос на вставку и выполнив его, а не отдельный запрос для каждого слова. В противном случае, я не думаю, что ваш код выглядит так плохо.

1 голос
/ 30 октября 2009

Триггеры, выполняющие большие вычисления, замедляют работу вашего приложения.

Я думаю, что вам лучше планировать периодическое выполнение задачи и выполнять извлечение для вас.

0 голосов
/ 30 октября 2009

Вы пытались использовать функцию PHP htmlentities для удаления этих тегов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...