Как просмотреть документы XML, отправленные в Solr - PullRequest
0 голосов
/ 21 июня 2010

У нас проблемы с UTF-8 в Solr, и нам нужно отладить документы, отправленные для индексации. Можем ли мы сделать это как-нибудь?

Обыскал все журналы, которые я нашел, включил debug="1" в приложении XML в каталоге tomcat6 / Catalina. Даже пробовал Wireshark, но без игры в кости. Пожалуйста, пожалуйста!

Все выглядит хорошо на стороне PHP, и до сих пор это работало нормально. Но международные символы превращаются в?, Классическая головная боль.

Ответы [ 2 ]

2 голосов
/ 22 июня 2010

Убедитесь, что сторона php идеальна. Вы открыли файл XML с помощью редактора и явно указали кодировку UTF8? Какая у вас система по умолчанию? Могу поспорить, что преобразование файла из этой кодировки в UTF8 может решить проблему (например, с помощью iconv).

Потому что Solr принимает только UTF-8. И из-за природы XML это даже подмножество XML. Вы также можете сканировать xml, сгенерированный из php, через следующий код , то есть искать там недействительные (xml) символы ...

1 голос
/ 21 июня 2010

Вы можете использовать Tcpmon .

Я часто его использую, так как он позволяет мне видеть заголовок http и полезную нагрузку при отправке в Solr (или любое веб-приложение).

...