У меня проблема с SAX и Java .
Я анализирую xml-файл базы данных цифровой библиотеки dblp (в котором перечислены журналы, конференции, статьи). Файл XML очень большой (> 700 МБ).
Однако моя проблема заключается в том, что при возврате символов () обратного вызова, если полученная строка содержит несколько сущностей , метод возвращает только строку, начинающуюся с последних символов сущности обнаруж .
т.е.: Rüdiger Mecke
- это оригинальное имя автора, заключенное между <author>
тегами
üdiger Mecke
является результатом
(строка возвращается из символов (ch [], начало, длина) метод).
Хотелось бы знать:
- как запретить PArser автоматически разрешать сущности?
- как решить проблему усеченных символов, описанную ранее?