Question

Я пытаюсь разделить японские предложения, используя RegexpTokenizer, но он возвращает нулевые множества.Может кто-нибудь сказать мне, почему?и как разбить японские предложения?

#!/usr/bin/python  # -*- encoding: utf-8 -*-

import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer

jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。．）]*[!?。]')

print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

, вывод к приведенному выше коду:

[]

aab · Answer 1 · 02 марта 2011

Я думаю, вам просто не хватает юникода u :

print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')

RegexpTokenize японские предложения - питон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

RegexpTokenize японские предложения - питон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы