mulan: mulan.data.DataLoadException: Ошибка создания данных экземпляров из предоставленного источника данных Reader: индексировать за пределами, прочитать маркер [1080], строка 1085 - PullRequest
0 голосов
/ 07 ноября 2019

Я пытаюсь получить набор данных с несколькими метками, один из них - набор данных «Language Log», URL-адрес которого - «http://waikato.github.io/meka/datasets/".the, подробности этого набора данных показывают следующим образом:

@relation 'LangLog: -C 75'

@attribute Errors {0,1}
@attribute Humor {0,1}
@attribute Speech_acts {0,1}
@attribute Prescriptivist_Poppycock {0,1}
@attribute Phonetics_and_phonology {0,1}
@attribute Punctuation {0,1}
@attribute Administration {0,1}
@attribute Language_and_culture {0,1}
@attribute This_blogging_life {0,1}
@attribute Ignorance_of_Linguistics {0,1}
@attribute HLT {0,1}
@attribute Announcements {0,1}
@attribute Syntax {0,1}
....
@attribute tok1 numeric
@attribute tok2 numeric
@attribute tok3 numeric
@attribute tok4 numeric
@attribute tok5 numeric
@attribute tok6 numeric
@attribute tok7 numeric
@attribute tok8 numeric
@attribute tok9 numeric
@attribute tok10 numeric
@attribute tok11 numeric
@attribute tok12 numeric
@attribute tok13 numeric
@attribute tok14 numeric
@attribute tok15 numeric
@attribute tok16 numeric
@attribute tok17 numeric
@attribute tok18 numeric
@attribute tok19 numeric
@attribute tok20 numeric
.....

@data
{32 1,60 1,99 1,154 1,202 1,220 1,225 1,256 1,274 1,405 1,459 1,461 1,632 1,688 1,714 1,778 1,789 1,793 1,831 1,836 1,845 1,973 1,995 1,1021 1,1029 1,1046 1}

но теперь у меня есть проблема, как вы можете видеть, часть метки показывается перед компонентной частью, поэтому я написал код для преобразования порядка (из-за моих требований к алгоритму мульти-меток). это:

@relation 'LangLog: -C 75'

@attribute tok0 numeric
@attribute tok1 numeric
@attribute tok2 numeric
@attribute tok3 numeric
@attribute tok4 numeric
@attribute tok5 numeric
@attribute tok6 numeric
@attribute tok7 numeric
@attribute tok8 numeric
@attribute tok9 numeric
@attribute tok10 numeric
@attribute tok11 numeric
@attribute tok12 numeric
@attribute tok13 numeric
@attribute tok14 numeric
@attribute tok15 numeric
@attribute tok16 numeric
@attribute tok17 numeric
@attribute tok18 numeric
@attribute tok19 numeric
@attribute tok20 numeric
@attribute tok21 numeric
...
@attribute tok1002 numeric
@attribute tok1003 numeric
@attribute Errors {0,1}
@attribute Humor {0,1}
@attribute Speech_acts {0,1}
@attribute Prescriptivist_Poppycock {0,1}
@attribute Phonetics_and_phonology {0,1}
@attribute Punctuation {0,1}
...

@data
{24 1,79 1,127 1,145 1,150 1,181 1,199 1,330 1,384 1,386 1,557 1,613 1,639 1,703 1,714 1,718 1,756 1,761 1,770 1,898 1,920 1,946 1,954 1,971 1,1036 1,1064 1}

однако, когда я делаю свой эксперимент по моему алгоритму с этим набором данных в мулане, возникает проблема, такая как: mulan.data.DataLoadException: Ошибка при создании данных экземпляров из предоставленного источника данных Reader: индекс за пределами, прочитайте Token [1080], строка 1085

Может кто-нибудь сказать мне, в чем причина? Спасибо всем!

...