Stanford NLP POS tag X по-испански - PullRequest
0 голосов
/ 21 января 2019

Я делаю POS-тег в тексте на испанском языке, и для некоторых слов тегер помечает его тегом X.

    static public void main(String[] args) {
        String text = "Posteriormente, el desarrollo urbanístico estuvo marcado por el aumento de la población debido a la inmigración desde otras partes de España, lo que conllevó diversos proyectos urbanísticos como el Plan Comarcal de 1953 o el Plan General Metropolitano de 1976. Igualmente, la adecuación del espacio urbano de la ciudad se ha visto favorecida entre los siglos XIX y XXI por diversos eventos celebrados en la ciudad, como la Exposición Universal de 1888, la Internacional de 1929, el XXXV Congreso Eucarístico Internacional de 1952, los Juegos Olímpicos de 1992 y el Fórum Universal de las Culturas de 2004.";
        Properties props = new Properties();
        props.setProperty("annotators", "tokenize, ssplit, pos");
        props.setProperty("pos.model", "spanish.tagger");
        props.setProperty("pos.maxlen", "50");
        StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
        Annotation annotation = new Annotation(text);
        pipeline.annotate(annotation);
        List<CoreMap> sentences = annotation.get(SentencesAnnotation.class);
        for(CoreMap sentence: sentences) {
            for (CoreLabel token: sentence.get(TokensAnnotation.class)) {
                String word = token.get(TextAnnotation.class);
                System.out.println(word + " " + token.get(PartOfSpeechAnnotation.class));
            }
        }
}

выводит:

Posteriormente rg
, fc
el da0000
desarrollo nc0s000
urbanístico aq0000
estuvo vmis000
marcado aq0000
por sp000
el da0000
aumento nc0s000
de sp000
la da0000
población nc0s000
debido vmp0000
a sp000
la da0000
inmigración nc0s000
desde sp000
otras di0000
partes nc0p000
de sp000
España np00000
, fc
lo da0000
que pr000000
conllevó vmis000
diversos di0000
proyectos nc0p000
urbanísticos aq0000
como cs
el da0000
Plan np00000
Comarcal np00000
de sp000
1953 w
o cc
el da0000
Plan np00000
General aq0000
Metropolitano np00000
de sp000
1976 w
. fp
Igualmente X
, X
la X
adecuación X
del X
espacio X
urbano X
de X
la X
ciudad X
se X
ha X
visto X
favorecida X
entre X
los X
siglos X
XIX X
y X
XXI X
por X
diversos X
eventos X
celebrados X
en X
la X
ciudad X
, X
como X
la X
Exposición X
Universal X
de X
1888 X
, X
la X
Internacional X
de X
1929 X
, X
el X
XXXV X
Congreso X
Eucarístico X
Internacional X
de X
1952 X
, X
los X
Juegos X
Olímpicos X
de X
1992 X
y X
el X
Fórum X
Universal X
de X
las X
Culturas X
de X
2004 X
. X

Вы будетеобратите внимание, что в конце есть много токенов с тегом «X».

Даже вещи, которые выглядят довольно очевидными (например, «las»).

Что означает этот токен?Я посмотрел его на сайте , но ничего не нашел об этом.

1 Ответ

0 голосов
/ 23 января 2019

Вы установили pos.maxlen = 50, чтобы он прекратил маркировку после 50 токенов.

...