lucene или sql fulltext? - PullRequest
       8

lucene или sql fulltext?

2 голосов
/ 02 октября 2009

Я хочу создать поисковый веб-сайт для поиска документов (все виды форматов, включая pdf), изображений, видео и аудио. Я также хочу иметь возможность фильтровать результаты поиска по некоторым критериям, таким как имя автора, дата и т. Д.

Я делаю это в .NET, так какой самый простой способ начать работу? Полнотекстовый поиск SQL кажется заманчивым, потому что я знаком с sql, и, кроме того, так как я хочу фильтровать свои результаты поиска, будет легко сохранить поля фильтра для каждого элемента.

Ответы [ 2 ]

4 голосов
/ 02 октября 2009

Если ваша основная задача - быстро и легко запустить и запустить его, то полнотекстовый поиск SQL, безусловно, является подходящим вариантом.

Lucene.NET имеет свои преимущества, но отнюдь не прогулка по парку для правильной настройки. Документации немного не хватает, и примеров в Интернете очень мало.

0 голосов
/ 23 декабря 2010

Хранимая процедура для фрагментов:

CREATE PROCEDURE SimpleCommentar
  @SearchTerm nvarchar(100),
  @Style nvarchar(200)
AS
BEGIN
  CREATE TABLE #match_docs
  (
    doc_id bigint NOT NULL PRIMA
  );
  INSERT INTO #match_docs
  (
    doc_id
  )
  SELECT DISTINCT
    Commentary_ID
  FROM Commentary
  WHERE FREETEXT 
  (
    Commentary, 
    @SearchTerm, 
    LANGUAGE N'English'
  );
  DECLARE @db_id int = DB_ID(),
    @table_id int = OBJECT_ID(N'
    @column_id int =
    (
      SELECT 
        column_id
      FROM sys.columns
      WHERE object_id = OBJECT_I
        AND name = N'Commentary'
    );
  SELECT
    s.Commentary_ID,
    t.Title,
    MIN
    (
      N'...' + SUBSTRING
      (
        REPLACE
          (
            c.Commentary, 
            s.Display_Term, 
 N'<span style="' + @Style + '">' + s.Display_Term + '</span>'
          ), 
        s.Pos - 512, 
        s.Length + 1024
      ) + N'...'
    ) AS Snippet
  FROM
    (
      SELECT DISTINCT 
        c.Commentary_ID,
        w.Display_Term,
        PATINDEX
          (
            N'%[^a-z]' + w.Display_Term + N'[^a-z]%', 
            c.Commentary
          ) AS Pos, 
        LEN(w.Display_Term) AS Length
      FROM sys.dm_fts_index_keywords_by_document
        (
          @db_id, 
          @table_id
        ) w
      INNER JOIN dbo.Commentary c
        ON w.document_id = c.Commentary_ID
      WHERE w.column_id = @column_id
        AND EXISTS 
          (
            SELECT 1
            FROM #match_docs m
            WHERE m.doc_id = w.document_id 
          )
        AND EXISTS 
          (
            SELECT 1
            FROM sys.dm_fts_parser
              (
                N'FORMSOF(FREETEXT, "' + @SearchTerm + N'")', 
                1033, 
                0, 
                1
              ) p
            WHERE p.Display_Term = w.Display_Term
          )
    ) s
  INNER JOIN dbo.Commentary c
    ON s.Commentary_ID = c.Commentary_ID
INNER JOIN dbo.Book_Commentary bc
    ON c.Commentary_ID = bc.Commentary_ID
  INNER JOIN dbo.Book_Title bt
    ON bc.Book_ID = bt.Book_ID
  INNER JOIN dbo.Title t
    ON bt.Title_ID = t.Title_ID
  WHERE t.Is_Primary_Title = 1
  GROUP BY
    s.Commentary_ID,
    t.Title;
  DROP TABLE #match_docs;
END;
...