Где я могу найти список слов «Стоп» для полнотекстового поиска Oracle? - PullRequest
4 голосов
/ 08 июня 2010

У меня есть клиент, тестирующий полнотекстовый поиск (пример ниже) на новом сайте Oracle UCM. Случайная текстовая строка, которую они выбрали для проверки, была «только для проверки». Который не удался; из моего тестирования кажется, что «только» является зарезервированным словом, поскольку оно никогда не возвращается из полнотекстового поиска (оно возвращается из поиска по метаданным).

Я провел утро в поисках oracle.com и нашел этот , который кажется довольно всеобъемлющим, но в нем нет слова "only".

Таким образом, мой вопрос таков: «только» зарезервированное слово. Где я могу найти полный список зарезервированных слов для полнотекстового поиска Oracle (10 г)?

Пример строки полнотекстового поиска;

(<ftx>test only</ftx>)


Обновление. Я сделал еще несколько испытаний. Кажется, он игнорирует слова, которые указывают места или время; только, некоторые, до, когда, когда, где, там, здесь, здесь, рядом, это, кто, о, это, они.

Кто-нибудь может это подтвердить? Я нигде не могу найти это в Oracle.


Обновление 2. Опубликовать ответ Я должен был искать слова «стоп», а не «зарезервировано». Обновлено название вопроса и теги для отражения.

Ответы [ 3 ]

4 голосов
/ 18 апреля 2011

Дополнительные ответы:

SELECT *
FROM DR$STOPWORD
LEFT JOIN DR$STOPLIST ON DR$STOPWORD.SPW_SPL_ID = DR$STOPLIST.SPL_ID

В результатах поля SPL_* получены из системной таблицы DR$STOPLIST, а поля SPW_* из таблицы DR$STOPWORD

  • Из пользовательской схемы пользовательские стоп-листы и стоп-слова могут быть получены с помощью
SELECT * FROM CTX_USER_STOPLISTS;
SELECT * FROM CTX_USER_STOPWORDS;
3 голосов
/ 08 июня 2010

Бьюсь об заклад, система пытается автоматически игнорировать часто встречающиеся слова. Это объясняет, почему вы не можете найти «только», но «только» можно найти. Можете ли вы искать «а», «ан», ...

Список, который вы дали неиспользуемых слов, похож на некоторые очень распространенные слова, которые часто не являются основными словами в предложении. Учитывая это, они вряд ли будут словами, которые вы ищете в полнотекстовом поиске.

Каковы шансы, что вы ищете статью, которая включает слово «это», и включение этого слова - единственный факт, который у вас есть в статье?

Я думаю, что нашел ваш список .... По иронии судьбы со страницы вики последней компании, которую я начал ..: http://www.sugarcrm.com/wiki/index.php?title=Overview_of_Full_Text_Stop_Words#Default_Stop_Words_.28for_English.29

2.10.3 Modifying the Default Stoplist The default stoplist is always named CTXSYS.DEFAULT_STOPLIST. You can use the following procedures to modify this stoplist:
 • CTX_DDL.ADD_STOPWORD
 • CTX_DDL.REMOVE_STOPWORD
 • CTX_DDL.ADD_STOPTHEME
 • CTX_DDL.ADD_STOPCLASS
 When you modify CTXSYS.DEFAULT_STOPLIST with the CTX_DDL package, you must re-create your index for the changes to take effect.

Список стоп-слов по умолчанию:

a he out up
be more their at
had one  will  from
it than and is
only when corp not
she also in  says
was by ms to
about her  over  
because  most  there  
has or  with  
its that are  
of which could  
some an inc  
we can mz  
after  his s  
been mr they  
have other  would  
last the as  
on who for  
such any into  
were co  no  
all if so  
but mrs this

Обновление - хороший технический документ от Oracle, который включает в себя, как работает полнотекстовый поиск, можно загрузить из: http://www.oracle.com/technology/products/text/pdf/text_techwp.pdf. Они упоминают стоп-слова и факт наличия списка по умолчанию, но не упоминают сами слова ,

0 голосов
/ 08 июня 2010

Ключевые слова защищены: http://www.toadworld.com/KNOWLEDGE/KnowledgeXpertforOracle/tabid/648/TopicID/SQL15/Default.aspx нажмите "Зарезервированные слова" слева.

«Только» находится в списке.

Я не уверен, что происходит в вашем случае, но я не могу представить, что Oracle не будет поддерживать это слово только в полнотекстовом поиске. Во многих полнотекстовых случаях вам нужно искать одно слово. Может ли это быть проблемой, с которой вы сталкиваетесь?

...