Microsoft Natural Language List: есть ли эквивалент «нет языка», «необработанный юникод» или «не зависит от языка»? - PullRequest
0 голосов
/ 24 апреля 2018

Есть ли что-то эквивалентное «неязыковому» или «необработанному» в списке естественных языков Microsoft, что могло бы привести к тому, что алгоритмы разбиения по словам (т.е. токенизации) будут использовать только пробел в качестве разделителя?

Редактировать: Или есть способ заставить технологию Microsoft использовать точку в качестве разделителя токенов только тогда, когда она присоединена к лексеме ?

Особая проблема (для нас) заключается в том, что полнотекстовый поиск в SQL Server использует точку в качестве разделителя при маркировке текста. Но наш текст содержит значимые «нелексические» символьные строки, такие как JC7D.14GR.2345DG, которые мы хотели бы искать без поиска для каждого чанка (JC7D and 14GR and 2345DG) или (JC7D NEAR 14GR NEAR 2345DG), так как этот подход к отдельным чанкам может давать ложные срабатывания, когда эти значения появляются в список в непосредственной близости друг от друга.

...