Существуют ли хорошие библиотеки с открытым исходным кодом для анализа поисковых терминов по URL? - PullRequest
0 голосов
/ 05 октября 2010

Я ищу библиотеку, которая анализирует файлы журнала (или входящие запросы) и извлекает условия поиска, если / когда запрос поступил от поисковой системы.

Есть ли хорошие библиотеки, которые предоставляют эту функцию?

Подойдет любой язык.

Ответы [ 2 ]

0 голосов
/ 05 октября 2010

Есть много способов получить, проанализировать и проанализировать данные, о которых вы говорите.

Очень просто, вы можете использовать текстовые файлы журнала и импортировать их в базу данных SQL для анализа (что позволяет вам также просматривать другие запросы и т. Д.).

Вы можете использовать программный сервис, такой как Google Analytics.

Или мой личный фаворит:

Запишите SQL INSERT в таблицу отслеживания. При этом вы можете разбить строку на предложения - очень просто разделив их по словам. Недостатком этого является то, что вы пропустите ключевое слово фразы , например, "Нью-Йорк" (два слова).

Человек, предложивший Lucene, предложил кусочек информации, которая может заставить вас придумать довольно аккуратный анализатор, но для получения полного решения потребуется много работы. Отличительной особенностью Lucene и Solr является то, что они могут токенизировать строку ключевого слова с помощью своих стандартных библиотек (разбивая два-три предложения слова, где у вас есть CompoundWords или CamelCaseKeywords).

С практического подхода, я думаю, вам лучше всего использовать что-то готовое, например, Google Analytics. Если у вас есть время и навыки, вставка записи в базу данных может превратиться во что-то очень мощное, если вы добавите ее.

0 голосов
/ 05 октября 2010

Java имеет инфраструктуру Lucene, которая является высокопроизводительной системой текстового поиска. Лог-файлы могут работать с этим, но для входящих запросов может быть сложнее. Вам нужно разобрать его во время потоковой передачи?

...