SQL Server union выбирает встроенный динамически из списка слов - PullRequest
1 голос
/ 04 мая 2010

Мне нужно подсчитать вхождение списка слов по всем записям в данной таблице. Если бы у меня было только 1 слово, я мог бы сделать это:

select count(id) as NumRecs where essay like '%word%'

Но мой список может состоять из сотен или тысяч слов, и я не хочу создавать сотни или тысячи запросов sql последовательно; это кажется глупым. У меня была мысль, что я мог бы создать хранимую процедуру, которая принимала бы список слов, разделенных запятыми, и для каждого слова он выполнял бы вышеуказанный запрос, а затем объединял их все вместе и возвращал один огромный набор данных. (Звучит разумно, правда? Но я не уверен, с чего начать с такого подхода ...)

Если не считать какой-то странной вещи с объединением, я мог бы попытаться что-то сделать с временной таблицей - вставить строку для каждого слова и счетчика записей, а затем вернуть select * из этой временной таблицы.

Если это возможно с объединением, как? И есть ли у одного подхода преимущества (производительность или иное) по сравнению с другим?

Ответы [ 2 ]

5 голосов
/ 04 мая 2010

Если вы хотите выполнить запрос по нескольким словам, возвращая строку результата для каждого слова, вы можете сохранить эти слова в таблице, как вы предлагали, и присоединить запрос к нему вместо выполнения большого количества запросов в цикле.Обратите внимание, что ключевым словом здесь является соединение, а не объединение.

SELECT word, COUNT(*)
FROM words
LEFT JOIN essays
ON essay LIKE '%' + words.word + '%'
GROUP BY word

Результат:

'bar', 2
'baz', 2
'corge', 0
'foo', 1
'qux', 1

Вы можете посмотреть полнотекстовый поиск .Он будет работать намного быстрее, чем LIKE '%word%'.Он также будет правильно обрабатывать границы слов.Решение на основе LIKE этого не делает.


Данные испытаний:

CREATE TABLE essays (essay NVARCHAR(100) NOT NULL);
INSERT INTO essays (essay) VALUES
('foo bar'),
('bar baz'),
('baz qux');

DROP TABLE words;
CREATE TABLE words (word NVARCHAR(100) NOT NULL);
INSERT INTO words (word) VALUES
('foo'),
('bar'),
('baz'),
('qux'),
('corge');
0 голосов
/ 04 мая 2010

Есть много способов разбить строку в SQL Server. В этой статье рассматриваются преимущества и недостатки практически каждого метода: «Массивы и списки в SQL Server 2005 и более поздних версиях, когда параметры табличных значений не сокращаются», Эрланд Соммарског

Я предпочитаю подход с использованием таблиц чисел для разбиения строки в TSQL , чтобы этот метод работал, вам необходимо выполнить настройку единовременной таблицы:

SELECT TOP 10000 IDENTITY(int,1,1) AS Number
    INTO Numbers
    FROM sys.objects s1
    CROSS JOIN sys.objects s2
ALTER TABLE Numbers ADD CONSTRAINT PK_Numbers PRIMARY KEY CLUSTERED (Number)

После настройки таблицы Numbers создайте функцию разделения:

CREATE FUNCTION [dbo].[FN_ListToTable]
(
     @SplitOn  char(1)      --REQUIRED, the character to split the @List string on
    ,@List     varchar(8000)--REQUIRED, the list to split apart
)
RETURNS TABLE
AS
RETURN 
(

    ----------------
    --SINGLE QUERY-- --this will not return empty rows
    ----------------
    SELECT
        ListValue
        FROM (SELECT
                  LTRIM(RTRIM(SUBSTRING(List2, number+1, CHARINDEX(@SplitOn, List2, number+1)-number - 1))) AS ListValue
                  FROM (
                           SELECT @SplitOn + @List + @SplitOn AS List2
                       ) AS dt
                      INNER JOIN Numbers n ON n.Number < LEN(dt.List2)
                  WHERE SUBSTRING(List2, number, 1) = @SplitOn
             ) dt2
        WHERE ListValue IS NOT NULL AND ListValue!=''

);
GO 

Теперь вы можете легко разбить строку CSV на таблицу и присоединиться к ней:

select * from dbo.FN_ListToTable(',','1,2,3,,,4,5,6777,,,')

ВЫВОД:

ListValue
-----------------------
1
2
3
4
5
6777

(6 row(s) affected)

Теперь вы можете присоединиться к расколу своего CSV, например:

DECLARE @YourTable table (RowID int, RowValue varchar(200))
INSERT INTO @YourTable VALUES (1,'aaa bbb ccc ddd eee fff ggg hhh')
INSERT INTO @YourTable VALUES (2,'bbb ddd fff hhh')
INSERT INTO @YourTable VALUES (3,'aaa bbb zzz')

DECLARE @Words varchar(500)
SET @Words='aaa,bbb,ccc,zzz'

SELECT
    COUNT(y.RowID) AS CountOF,l.ListValue
    FROM @YourTable                                  y
        INNER JOIN dbo.FN_ListToTable(',',@Words) AS l ON y.RowValue LIKE '%'+l.ListValue+'%'
    GROUP BY l.ListValue

ВЫВОД:

CountOF     ListValue
----------- ---------------
2           aaa
3           bbb
1           ccc
1           zzz

(4 row(s) affected)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...