Почему Mecab не разбирает текст в докере? - PullRequest
0 голосов
/ 19 апреля 2019

Я использую mecab для анализа японского текста и извлечения существительных.Он отлично работает на сервере.Но когда я пытаюсь запустить докер-контейнер, он перечисляет все слова и не фильтрует слова.Это какая-то проблема кодирования?

m = MeCab.Tagger('-Ochasen')
    excluded_part = ['名詞-接続-一般', '名詞-接尾-人名', '名詞-数']
    parsed = m.parse(text)
    df_parsed = pd.read_csv(
        StringIO(parsed), delimiter='\t',
        names=['単語', '読み', '原形', '品詞', '活用', '活用形'
    df_parsed = df_parsed[
            (df_parsed.品詞.str.contains('名詞')) &
            (~df_parsed.品詞.isin(excluded_part))]

Удаляет символ как ') |~ 'на сервере, но не удаляется в контейнере Docker.

...