Я пытаюсь разделить японские предложения, используя RegexpTokenizer, но он возвращает нулевые множества.Может кто-нибудь сказать мне, почему?и как разбить японские предложения?
#!/usr/bin/python # -*- encoding: utf-8 -*-
import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer
jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。.)]*[!?。]')
print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')
, вывод к приведенному выше коду:
[]