Исключение часто используемых слов из строки в PHP, MySQL - PullRequest
0 голосов
/ 14 марта 2012

У меня есть код, который берет массивную строку из базы данных SQL, разбирает ее на отдельные слова и помещает их в массив для подсчета с целью составления графика обязательных слов, но мне нужно средство удаления часто используемых слов. Я сделал очень простой набор слов для сравнения, но он не очень эффективен. Являются ли они каким-то средством файла словаря, с которым я могу сравнить его? любые идеи были бы фантастическими.

Я в настоящее время редактирую существующий «Алгоритм представления данных» во время стажировки, и я действительно не знаю, с чего начать. Было предложено использовать файл словаря, но я не только не имею его, но и не знаю, как его сравнить.

1 Ответ

0 голосов
/ 14 марта 2012

Вы можете сделать это, используя функцию in_array:

<?php

$whitelist = array('a', 'the');

function whitelisted($var)
{
    global $whitelist;
    return (!in_array($var, $whitelist));
}

$str = "a lazy fox jumped over the lazy farmer";

print_r(array_count_values(array_filter(explode(" ", $str), "whitelisted")));
?>

//produces:

Array
(
    [lazy] => 2
    [fox] => 1
    [jumped] => 1
    [over] => 1
    [farmer] => 1
)

Конечно, вы можете и должны перестроить это так, чтобы оно работало с вашей собственной областью (глобальная, вероятно, не идеальна), но она должна получитьВы начали сокращать распространенные слова, на которые не рассчитываете.

http://ideone.com/kfNzM

...