Я подумываю о том, чтобы добавить в мою программу-подобие стоп-слова, а затем использовать стеммер (выбор портера 1 или 2 зависит от того, что проще всего реализовать)
Мне было интересно, так как я читаю свой текст из файлов как целые строки и сохраняю их как длинную строку, так что, если я получу две строки, например.
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
Теперь, когда я получил эти строки
Сдерживание:
Могу ли я просто использовать алгоритмы Stemermer непосредственно на нем, сохранить его как String, а затем продолжить работу над сходством, как я делал до реализации Steammer в программе, например, запустив one.stem (); Такие вещи?
Стоп слово:
Как это работает? o.o
Я просто использую; one.replaceall («Я», «»); или есть какой-то конкретный способ использовать для этого процесса? Я хочу продолжать работать со строкой и получить строку, прежде чем использовать алгоритмы подобия для нее, чтобы получить сходство. Вики мало что говорит.
Надеюсь, ты поможешь мне! Благодарю.
Редактировать: Это для школьного проекта, в котором я пишу статью о сходстве между различными алгоритмами, поэтому я не думаю, что мне разрешено использовать lucene или другие библиотеки, которые работают для меня. Кроме того, я хотел бы попытаться понять, как это работает, прежде чем я начну использовать библиотеки, такие как Lucene и co. Надеюсь, это не слишком беспокоит ^^