Question

Я скачал MeCab для разбора японского текста.Чтобы проверить это, я попытался сделать то, что показывали некоторые примеры в Интернете.

Например, я дословно следовал советам этого парня: http://www.robfahey.co.uk/blog/japanese-text-analysis-in-python/

Код выглядит следующим образом:

import MeCab

test = "今日はいい天気ですね。遊びに行かない？新宿で祭りがある！"
mt = MeCab.Tagger("-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
parsed = mt.parseToNode(test)

components = []
while parsed:
    components.append(parsed.surface)
    parsed = parsed.next

print(components)

Вывод, который я ожидаю:

['', '今日', 'は', 'いい', '天気', 'です', 'ね', '。', '遊び', 'に', '行か', 'ない', '？', '新宿', 'で', '祭り', 'が', 'ある', '！', '']

Однако я получаю это:

['今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', '今日はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'はいい天気ですね。遊びに行かない？新宿で祭りがある！', 'いい天気ですね。遊びに行かない？新宿で祭りがある！', '天気ですね。遊びに行かない？新宿で祭りがある！', 'ですね。遊びに行かない？新宿で祭りがある！', 'ね。遊びに行かない？新宿で祭りがある！', '。遊びに行かない？新宿で祭りがある！', '遊びに行かない？新宿で祭りがある！', 'に行かない？新宿で祭りがある！', '行かない？新宿で祭りがある！', 'ない？新宿で祭りがある！', '？新宿で祭りがある！', '新宿で祭りがある！', 'で祭りがある！', '祭りがある！', 'がある！', 'ある！', '！', '']

Любой, кто знаком с MeCab или узлом синтаксического анализа в целом,что именно я делаю не так?Еще раз спасибо за вашу помощь!

polm23 · Answer 1 · 17 декабря 2018

Вы не делаете ничего плохого, есть ошибка в последней версии mecab-python3, выпущенной в ноябре.

Ошибка должна быть исправлена в ближайшее время, но покапожалуйста, используйте версию 0.7.

MeCab неправильно анализирует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

MeCab неправильно анализирует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы