Как преобразовать байтовый массив в строку в Common Lisp? - PullRequest
20 голосов
/ 01 марта 2009

Я вызываю забавный API, который возвращает байтовый массив, но мне нужен текстовый поток. Есть ли простой способ получить поток текста из байтового массива? А пока я просто бросил вместе:

(defun bytearray-to-string (bytes)
  (let ((str (make-string (length bytes))))
    (loop for byte across bytes
       for i from 0
       do (setf (aref str i) (code-char byte)))
    str))

и затем обернуть результат в with-input-from-string, но это не может быть лучшим способом. (Плюс, это ужасно неэффективно.)

В этом случае я знаю, что это всегда ASCII, поэтому интерпретировать его как ASCII или UTF-8 было бы хорошо. Я использую SBCL с поддержкой Unicode, но я бы предпочел портативное (даже ASCII-только) решение для SBCL-Unicode-специфичного.

Ответы [ 6 ]

29 голосов
/ 01 марта 2009

FLEXI-STREAMS (http://weitz.de/flexi-streams/) имеет переносную функцию преобразования

(flexi-streams:octets-to-string #(72 101 108 108 111) :external-format :utf-8)

=>

"Hello"

Или, если вы хотите поток:

(flexi-streams:make-flexi-stream
   (flexi-streams:make-in-memory-input-stream
      #(72 101 108 108 111))
   :external-format :utf-8)

вернет поток, который читает текст из байтового вектора

23 голосов
/ 02 марта 2009

Для этого преобразования есть две переносимые библиотеки:

  • flexi-streams, уже упоминавшиеся в другом ответе.

    Эта библиотека более старая и имеет больше возможностей, в частности расширяемые потоки.

  • Babel , библиотека специально для кодирования и декодирования символов

    Основным преимуществом Babel перед flexi-streams является скорость.

Для лучшей производительности используйте Babel, если он обладает необходимыми вам функциями, и в противном случае прибегайте к гибким потокам. Ниже (слегка ненаучный) микробенчмарк, иллюстрирующий разницу в скорости.

Для этого теста Babel работает в 337 раз быстрее и требует в 200 раз меньше памяти.

(asdf:operate 'asdf:load-op :flexi-streams)
(asdf:operate 'asdf:load-op :babel)

(defun flexi-streams-test (bytes n)
  (loop
     repeat n
     collect (flexi-streams:octets-to-string bytes :external-format :utf-8)))

(defun babel-test (bytes n)
  (loop
     repeat n
     collect (babel:octets-to-string bytes :encoding :utf-8)))

(defun test (&optional (data #(72 101 108 108 111))
                       (n 10000))
  (let* ((ub8-vector (coerce data '(simple-array (unsigned-byte 8) (*))))
         (result1 (time (flexi-streams-test ub8-vector n)))
         (result2 (time (babel-test ub8-vector n))))
    (assert (equal result1 result2))))

#|
CL-USER> (test)
Evaluation took:
  1.348 seconds of real time
  1.328083 seconds of user run time
  0.020002 seconds of system run time
  [Run times include 0.12 seconds GC run time.]
  0 calls to %EVAL
  0 page faults and
  126,402,160 bytes consed.
Evaluation took:
  0.004 seconds of real time
  0.004 seconds of user run time
  0.0 seconds of system run time
  0 calls to %EVAL
  0 page faults and
  635,232 bytes consed.
|#
14 голосов
/ 04 марта 2009

Если вам не нужно беспокоиться о кодировке UTF-8 (что, по сути, означает «просто простой ASCII»), вы можете использовать MAP:

(карта 'string #' code-char # (72 101 108 108 111))
5 голосов
/ 18 июня 2009

Я говорю: иди с предлагаемыми решениями flexistream или babel.

Но для полноты картины и для того, чтобы будущие гуглеры пришли на эту страницу, я хочу упомянуть собственный sbcl: sb-ext: octets-to-string:

   SB-EXT:OCTETS-TO-STRING is an external symbol in #<PACKAGE "SB-EXT">.
   Function: #<FUNCTION SB-EXT:OCTETS-TO-STRING>
   Its associated name (as in FUNCTION-LAMBDA-EXPRESSION) is
     SB-EXT:OCTETS-TO-STRING.
   The function's arguments are:  (VECTOR &KEY (EXTERNAL-FORMAT DEFAULT) (START 0)
                                          END)
   Its defined argument types are:
     ((VECTOR (UNSIGNED-BYTE 8)) &KEY (:EXTERNAL-FORMAT T) (:START T) (:END T))
   Its result type is:
     *
4 голосов
/ 01 марта 2009

SBCL поддерживает так называемые Серые потоки . Это расширяемые потоки, основанные на классах CLOS и универсальных функциях. Вы можете создать подкласс текстового потока, который получает символы из массива байтов.

0 голосов
/ 01 марта 2009

Попробуйте функцию FORMAT. (FORMAT NIL ...) возвращает результаты в виде строки.

...