Также взгляните на NSLinguisticTagger.
Но само по себе не даст вам намного больше.
По правде говоря, эти два языка (и некоторые другие) действительно трудно точно програмировать.
Вы также должны увидеть видео WWDC на LSM. Скрытое семантическое отображение. Они охватывают тему стволовых и лемм. Это искусство и наука более точного определения того, как значимо маркировать.
То, что ты хочешь сделать, сложно. Поиск одних только границ слов не дает достаточного контекста, чтобы передать точное значение. Это требует рассмотрения контекста, а также определения идиом и фраз, которые не следует разбивать на слова. (Не говоря уже о грамматических формах)
После этого снова посмотрите на доступные библиотеки, затем найдите книгу по Python NLTK, чтобы узнать, что вам действительно нужно узнать о NLP, чтобы понять, насколько вы действительно хотите заниматься этим.
Большие объемы текста по своей природе дают лучшие результаты. Там нет учета опечаток и плохой грамматики. Большая часть контекста необходима для управления логикой в неявном контексте анализа, который не написан напрямую как слово. Вы можете строить правила и обучать вещи.
Японский язык особенно сложен, и многие библиотеки, разработанные за пределами Японии, близко не подходят. Вам нужно знание языка, чтобы знать, работает ли анализ. Даже коренные японцы могут испытывать трудности при проведении естественного анализа без надлежащего контекста. Есть общие сценарии, когда язык представляет две взаимно понятные правильные границы слова.
Чтобы провести аналогию, это все равно, что много заглядывать в будущее и оглядываться назад в регулярных выражениях.