RegexpTokenize японские предложения - питон - PullRequest
2 голосов
/ 02 марта 2011

Я пытаюсь разделить японские предложения, используя RegexpTokenizer, но он возвращает нулевые множества.Может кто-нибудь сказать мне, почему?и как разбить японские предложения?

#!/usr/bin/python  # -*- encoding: utf-8 -*-

import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer

jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。.)]*[!?。]')

print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

, вывод к приведенному выше коду:

[]

1 Ответ

2 голосов
/ 02 марта 2011

Я думаю, вам просто не хватает юникода u :

print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')
...