MarkLogic Content Pump, content_encoding encoding = "US-ASCII"? - PullRequest
0 голосов
/ 04 марта 2019

MarkLogic установлен на компьютере с Windows 10.

Мы используем MarkLogic Content Pump (MLCP) для импорта данных

Он хорошо работает с

<?xml version="1.0" encoding="UTF-8"?>

Itпоказывает ошибку при импорте не кодировки UTF8, т.е.

<?xml version="1.0" encoding="US-ASCII"?>

Я посмотрел руководство по MLCP и обнаружил параметр content_encoding, но он не работает, и ошибка выдачи для записей содержит специальные символы, такие как ´ δ, «и т. д.

ОШИБКА mapreduce.ContentWriter: XDMP-DOCENTITYREF: Неверная ссылка на сущность "гамма"

Я передаю ее следующим образом

mlcp.bat -content_encoding "US-ASCII"

Когда я посмотрел на этот документ он говорит: «Поддерживается только UTF-8».

Когда я смотрю на this , он говорит: «Значение параметра должно быть именем набора символов, принятым вашей JVM;»

Так что я запутался и не уверен, как решить эту проблему и как установить набор символов в JVM

1 Ответ

0 голосов
/ 11 марта 2019

Спасибо grtjn за ваш ответ.

-xml_repair_level полностью сработал, и все записи теперь зафиксированы, а записи не выполнены.

Специальные символы (с;) сохраняются в ML с реальным символом какследует

  • & lambda - λ
  • Å - Å
  • & mu - μ

Я надеюсь, что это должно быть приемлемым содержанием избизнес-точка зрения.

Теперь единственной серьезной задачей является тестирование искаженных символов в миллионах xml-записей.

Спасибо grtjn за вашу помощь.

...