Я делаю POS-тег в тексте на испанском языке, и для некоторых слов тегер помечает его тегом X
.
static public void main(String[] args) {
String text = "Posteriormente, el desarrollo urbanístico estuvo marcado por el aumento de la población debido a la inmigración desde otras partes de España, lo que conllevó diversos proyectos urbanísticos como el Plan Comarcal de 1953 o el Plan General Metropolitano de 1976. Igualmente, la adecuación del espacio urbano de la ciudad se ha visto favorecida entre los siglos XIX y XXI por diversos eventos celebrados en la ciudad, como la Exposición Universal de 1888, la Internacional de 1929, el XXXV Congreso Eucarístico Internacional de 1952, los Juegos Olímpicos de 1992 y el Fórum Universal de las Culturas de 2004.";
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos");
props.setProperty("pos.model", "spanish.tagger");
props.setProperty("pos.maxlen", "50");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
Annotation annotation = new Annotation(text);
pipeline.annotate(annotation);
List<CoreMap> sentences = annotation.get(SentencesAnnotation.class);
for(CoreMap sentence: sentences) {
for (CoreLabel token: sentence.get(TokensAnnotation.class)) {
String word = token.get(TextAnnotation.class);
System.out.println(word + " " + token.get(PartOfSpeechAnnotation.class));
}
}
}
выводит:
Posteriormente rg
, fc
el da0000
desarrollo nc0s000
urbanístico aq0000
estuvo vmis000
marcado aq0000
por sp000
el da0000
aumento nc0s000
de sp000
la da0000
población nc0s000
debido vmp0000
a sp000
la da0000
inmigración nc0s000
desde sp000
otras di0000
partes nc0p000
de sp000
España np00000
, fc
lo da0000
que pr000000
conllevó vmis000
diversos di0000
proyectos nc0p000
urbanísticos aq0000
como cs
el da0000
Plan np00000
Comarcal np00000
de sp000
1953 w
o cc
el da0000
Plan np00000
General aq0000
Metropolitano np00000
de sp000
1976 w
. fp
Igualmente X
, X
la X
adecuación X
del X
espacio X
urbano X
de X
la X
ciudad X
se X
ha X
visto X
favorecida X
entre X
los X
siglos X
XIX X
y X
XXI X
por X
diversos X
eventos X
celebrados X
en X
la X
ciudad X
, X
como X
la X
Exposición X
Universal X
de X
1888 X
, X
la X
Internacional X
de X
1929 X
, X
el X
XXXV X
Congreso X
Eucarístico X
Internacional X
de X
1952 X
, X
los X
Juegos X
Olímpicos X
de X
1992 X
y X
el X
Fórum X
Universal X
de X
las X
Culturas X
de X
2004 X
. X
Вы будетеобратите внимание, что в конце есть много токенов с тегом «X».
Даже вещи, которые выглядят довольно очевидными (например, «las»).
Что означает этот токен?Я посмотрел его на сайте , но ничего не нашел об этом.