Есть ли библиотека, чтобы взять строку и классифицировать ее по категории, основываясь на том, соответствует ли она группе строк? - PullRequest
0 голосов
/ 05 декабря 2018

Итак, у меня есть четыре списка строк, каждый из которых соответствует определенной категории.Каждая строка представляет собой должность, например, «web-разработчик», которая соответствует категории «IT».

Входная строка будет другим названием должности, и идея состоит в том, чтобы отсортировать это название должности в соответствующую категорию на основе того, насколько хорошо он соответствует списку строк

Кто-нибудь знаетхорошая библиотека для этого?К сожалению, мне не хватает исходного материала для правильной подготовки системы машинного обучения ... Все библиотеки, которые я нашел до сих пор, похоже, основаны на машинном обучении

В качестве альтернативы, если такой библиотеки не существует, сделайтеУ кого-нибудь есть предложения о том, как этого добиться?Моя лучшая идея до сих пор состояла в том, чтобы просто ... искать во всех строках и делать string.contains (searchString) и просто сопоставлять его таким образом.Я не знаю, как обрабатывать несколько совпадений, хотя ...

В идеале библиотека должна быть Java, но это не является необходимостью.

1 Ответ

0 голосов
/ 05 декабря 2018

В качестве альтернативы, если такой библиотеки не существует, есть ли у кого-нибудь предложения о том, как этого добиться?Моя лучшая идея до сих пор состояла в том, чтобы просто ... искать во всех строках и делать string.contains (searchString) и просто сопоставлять его таким образом.Я не знаю, как обрабатывать несколько совпадений, хотя ...

Вы можете использовать алгоритм, как расстояние строки Левенштейна, чтобы достичь этого.Алгоритм дает вам количество шагов, необходимых для изменения одной строки на другую: чем меньше нужно шагов, тем больше похожи строки.

В библиотеке StringUtils Apache Commons есть реализация .

...