Импорт XML-файла в приложение Rails, проблема с кодировкой UTF-16 - PullRequest
2 голосов
/ 15 сентября 2008

Я пытаюсь импортировать файл XML через веб-страницу в приложении Ruby on Rails, код представления ruby ​​кода выглядит следующим образом (я удалил теги макета HTML, чтобы упростить чтение кода)

<% form_for( :fmfile, :url => '/fmfiles', :html => { :method => :post, :name => 'Form_Import_DDR', :enctype => 'multipart/form-data' } ) do |f| %>
<%= f.file_field :document, :accept => 'text/xml', :name => 'fmfile_document' %>
<%= submit_tag 'Import DDR' %>
<% end %>

Результаты в следующей HTML-форме

<form action="/fmfiles" enctype="multipart/form-data" method="post" name="Form_Import_DDR"><div style="margin:0;padding:0"><input name="authenticity_token" type="hidden" value="3da97372885564a4587774e7e31aaf77119aec62" />
<input accept="text/xml" id="fmfile_document" name="fmfile_document" size="30" type="file" />
<input name="commit" type="submit" value="Import DDR" />
</form>

Метод Form_Import_DDR в 'fmfiles_controller' - это код, который выполняет тяжелую работу по чтению документа XML с использованием REXML. Код выглядит следующим образом

@fmfile = Fmfile.new
@fmfile.user_id = current_user.id
@fmfile.file_group_id = 1
@fmfile.name = params[:fmfile_document].original_filename

respond_to do |format|
  if @fmfile.save
    require 'rexml/document'
    doc = REXML::Document.new(params[:fmfile_document].read)

    doc.root.elements['File'].elements['BaseTableCatalog'].each_element('BaseTable') do |n|
      @base_table = BaseTable.new
      @base_table.base_table_create(@fmfile.user_id, @fmfile.id, n)
    end

И он продолжает читать все различные элементы XML в.

Я использую Rails 2.1.0 и Mongrel 1.1.5 в среде разработки на Mac OS X 10.5.4, БД сайта и браузер на одном компьютере.

Мой вопрос такой. Весь этот процесс работает нормально при чтении документа XML с кодировкой символов UTF-8, но завершается неудачно, когда файл XML имеет формат UTF-16, кто-нибудь знает, почему это происходит и как его можно остановить?

Я включил вывод ошибок из консоли отладчика ниже, получение этих выходных данных занимает около 5 минут, а время ожидания браузера заканчивается до следующего вывода с сообщением «Не удалось открыть страницу»

Processing FmfilesController#create (for 127.0.0.1 at 2008-09-15 16:50:56) [POST]
Session ID: BAh7CDoMdXNlcl9pZGkGOgxjc3JmX2lkIiVmM2I3YWU2YWI4ODU2NjI0NDM2
NTFmMDE1OGY1OWQxNSIKZmxhc2hJQzonQWN0aW9uQ29udHJvbGxlcjo6Rmxh
c2g6OkZsYXNoSGFzaHsABjoKQHVzZWR7AA==--dd9f588a68ed628ab398dd1a967eedcd09e505e0
Parameters: {"commit"=>"Import DDR", "authenticity_token"=>"3da97372885564a4587774e7e31aaf77119aec62", "action"=>"create", "fmfile_document"=>#<File:/var/folders/LU/LU50A0vNHA07S4rxDAOk4E+++TI/-Tmp-/CGI.3001.1>, "controller"=>"fmfiles"}
[4;36;1mUser Load (0.000350)[0m   [0;1mSELECT * FROM "users" WHERE (id = 1) LIMIT 1[0m
[4;35;1mFmfile Create (0.000483)[0m   [0mINSERT INTO "fmfiles" ("name", "file_group_id", "updated_at", "report_created_at", "report_link", "report_version", "option_on_open_account_name", "user_id", "option_default_custom_menu_set", "option_on_close_script", "path", "report_type", "option_on_open_layout", "option_on_open_script", "created_at") VALUES('TheTest_fp7 2.xml', 1, '2008-09-15 15:50:56', NULL, NULL, NULL, NULL, 1, NULL, NULL, NULL, NULL, NULL, NULL, '2008-09-15 15:50:56')[0m

REXML::ParseException (#<Iconv::InvalidCharacter: "਼䙍偒数 (followed by a few thousand similar looking chinese characters)
䙍偒数潲琾", ["\n"]>
/Library/Ruby/Site/1.8/rexml/encodings/ICONV.rb:7:in `conv'
/Library/Ruby/Site/1.8/rexml/encodings/ICONV.rb:7:in `decode'
/Library/Ruby/Site/1.8/rexml/source.rb:50:in `encoding='
/Library/Ruby/Site/1.8/rexml/parsers/baseparser.rb:210:in `pull'
/Library/Ruby/Site/1.8/rexml/parsers/treeparser.rb:21:in `parse'
/Library/Ruby/Site/1.8/rexml/document.rb:190:in `build'
/Library/Ruby/Site/1.8/rexml/document.rb:45:in `initialize'

Ответы [ 4 ]

1 голос
/ 15 сентября 2008

Вместо проблемы rails / mongrel, скорее всего, есть проблема с вашим XML-файлом или с тем, как REXML его обрабатывает. Вы можете проверить это, написав короткий скрипт для непосредственного чтения вашего XML-файла (а не внутри запроса) и выяснения, не сработает ли он по-прежнему.

Если предположить, что есть, я бы посмотрел пару вещей. Во-первых, я бы проверил, что вы используете последнюю версию REXML. Пару лет назад была ошибка (http://www.germane -software.com / projects / rexml / ticket / 63 ) в его обработке UTF-16.

Во-вторых, я проверю, похожа ли ваша проблема на это: http://groups.google.com/group/rubyonrails-talk/browse_thread/thread/ba7b0585c7a6330d. Если это так, вы можете попробовать обходной путь в этой теме.

Если ничего из вышеперечисленного не помогло, ответьте, пожалуйста, с дополнительной информацией, например, об исключении, которое вы получаете при попытке прочитать файл.

0 голосов
/ 15 ноября 2008

На самом деле, я думаю, что ваша проблема может быть связана с проблемой, которую я только что подробно описал в этом посте . На вашем месте я бы открыл его в TextPad в двоичном режиме и посмотрел, есть ли какие-либо метки порядка байтов до того, как ваш XML запустится.

0 голосов
/ 04 ноября 2008

Вы пытались сделать это с помощью JRuby? Я слышал, что строки Юникода лучше поддерживаются в JRuby.

Еще одна вещь, которую вы можете попробовать, - это использовать другую библиотеку для разбора XML, например libxml ou Hpricot.

REXML - одна из самых медленных библиотек Ruby XML, которую вы можете использовать, и она может не масштабироваться.

0 голосов
/ 15 сентября 2008

Поскольку для того, чтобы это работало, от меня требуется только изменить атрибут кодирования первого элемента XML, чтобы он имел значение UTF-8 вместо UTF-16, файл XML на самом деле является UTF-8 и неверно помечен приложением, которое генерирует это.

Файл XML представляет собой экспорт FileMaker DDR, созданный FileMaker Pro Advanced 8.5 для OS X 10.5.4

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...