Использует ли StackOverflow Lucene для поиска по тегам? - PullRequest
0 голосов
/ 26 апреля 2009

Как SO реализовал помеченный поиск? Использует ли он Lucene или любую другую библиотеку поисковых систем с открытым исходным кодом для поиска по тегам?

Каков наилучший способ поиска документов (PDF, XML, HTML, MS Word) или базы данных?

Ответы [ 4 ]

1 голос
/ 14 января 2010

Поиск тегов сильно отличается от поиска текста. Поиск по тегу - это поиск ассоциации, в которой все вопросы связаны с определенным тегом. Это может быть реализовано с помощью полнотекстового механизма, в котором все теги добавляются в одну большую запись, но, вероятно, в этой ситуации лучше всего подойдет реляционная база данных (при условии, что тегированные данные для начала находятся в реляционной базе данных).

Для поиска других документов, таких как PDF, XLS, HTML, вам нужен полный текст, например, Lucene. Вам понадобится парсер, который может извлекать только соответствующий текст из каждого источника (т. Е. Отделять текст от разметки).

0 голосов
/ 14 января 2010

ТАК не использует Lucene.

Если вы хотите индексировать документы и работаете под Windows, тогда IFilters будет моим первым выбором.

0 голосов
/ 14 января 2010

В последний раз, когда это обсуждалось (на подкасте), упоминалось, что Stackoverflow использует функцию полнотекстового поиска SQL Server, а не Lucene.

0 голосов
/ 26 апреля 2009

Итак, да, он использует Lucene.NET, хотя я не совсем уверен, как именно. «Лучший» путь - это целая другая история.

...