Есть ли что-то эквивалентное «неязыковому» или «необработанному» в списке естественных языков Microsoft, что могло бы привести к тому, что алгоритмы разбиения по словам (т.е. токенизации) будут использовать только пробел в качестве разделителя?
Редактировать: Или есть способ заставить технологию Microsoft использовать точку в качестве разделителя токенов только тогда, когда она присоединена к лексеме ?
Особая проблема (для нас) заключается в том, что полнотекстовый поиск в SQL Server использует точку в качестве разделителя при маркировке текста. Но наш текст содержит значимые «нелексические» символьные строки, такие как JC7D.14GR.2345DG
, которые мы хотели бы искать без поиска для каждого чанка (JC7D and 14GR and 2345DG)
или (JC7D NEAR 14GR NEAR 2345DG)
, так как этот подход к отдельным чанкам может давать ложные срабатывания, когда эти значения появляются в список в непосредственной близости друг от друга.