Копирование смайликов в тексте с MySQL на SQL Server - PullRequest
0 голосов
/ 25 октября 2019

Я копирую данные из MySQL на SQL Server, используя связанный сервер.

SELECT comment FROM openquery(my_linked_server, 'SELECT comment FROM search_data');

Текст в столбце таблицы MySQL: xxx ? xxx. По времени я получаю его в SQL Server xxx 🤘 xxx. Таблица MySQL utf8mb4, и я настроил конфигурацию ODBC для связанного сервера, чтобы использовать это. Я использую MySQL ODBC 5.3.13

Любой совет будет оценен. версия SQL Server 2016, я видел примеры для установки do

select N'?'

и т. д., но не знаю, как применить это к приведенному выше запросу.

🤘, кажется,быть 4 символа

ð = u00f0 , dec = 240
Ÿ = u0178 , dec = 276
¤ = u00a4 , dec = 164
˜ = u02dc , dec =  732

? = ud83e, dec = 55358

достаточно забавно, это даже не работает

select nchar(unicode(N'?')),unicode(N'?') 

возвращая символ �

Ответы [ 2 ]

0 голосов
/ 28 октября 2019

Я принял решение и разместил сообщение, чтобы другие не потратили день на то же самое

select ab_test.dbo.GetEmojisInString('👌💖🤷â€â™‚ï¸ðŸ˜ŽðŸ±â€ðŸ’»ðŸ˜‰â¤ðŸ±â€ðŸ‘¤ðŸ¤žðŸ¤£ðŸ‘💕✌ðŸ±â€ðŸðŸ’‹ðŸŽ‚🎉🤦â€â™‚ï¸ðŸ˜ŠðŸŒ¹ðŸ‘ðŸ±â€ðŸ‰ðŸŽ¶ðŸ˜ðŸ¤¦â€â™€ï¸ðŸ˜ðŸ™ŒðŸ±â€ðŸš€ðŸ˜œðŸ˜˜ðŸ±â€ðŸ‘“😢😒🤳😂')

вернет

???‍♂️??‍??❤?‍??100

есть 5 функций ниже,вероятно, не идеально, а может быть, короче / лучше, но это работает. если есть какие-либо ошибки, дайте мне знать.

ПРИМЕЧАНИЕ: мне пришлось разделить две базы данных, так как для этого для работы сортировки необходимо иметь _CS, и приведенную ниже базу данных bi_library в моем решении я не смог бы изменить, так как база данных былазаблокирован, поэтому на данный момент только что создал базу данных ab_test.

USE [bi_library]
GO

CREATE FUNCTION [dbo].[GetDecimalFromOtherBase]
(  @p_in_value   varchar(100),
   @p_from_base  int -- ie 16 for hex, 8 for octal, 2 for bin
) returns int
as
begin
    declare @l_in_value varchar(100) = reverse(@p_in_value) -- spin backwards as maths works in easier this way
    declare @l_from_base varchar(100) = @p_from_base--@p_from_base --= @p_in_value
    declare @l_pos int = 1
    declare @l_char char(1)
    declare @l_val int = 0
    declare @l_total int = 0

    while @l_pos<= len(@l_in_value)
    begin
       set @l_char = substring(@l_in_value,@l_pos,1)

       if isnumeric(@l_char)=0
       begin
          set @l_val = ascii(@l_char)-55 -- convert A to 10, F to 15 etc
       end 
       else
       begin
          set @l_val = @l_char
       end

       set @l_total = @l_total + (power(@l_from_base,@l_pos-1)*@l_val)
       set @l_pos=@l_pos+1
    end
    return @l_total
end
GO

CREATE FUNCTION [dbo].[GetOtherBaseFromDecimal]
(  @p_in_value   int,
   @p_to_base  int -- ie 16 for hex, 8 for octal, 2 for bin
) returns varchar(100)
as
begin
    -- convert decimal to other base
    declare @l_dec int = @p_in_value
    declare @l_ret_str varchar(100) = ''
    declare @l_rem int = 0
    declare @l_rem_char char(1) = '?'
    while @l_dec > 0
    begin
          set @l_rem = @l_dec % @p_to_base
          if @l_rem >= 10
          begin
             set @l_rem_char = char(55+@l_rem)
          end
          else
          begin
             set @l_rem_char = cast(@l_rem as varchar)
          end

          set @l_ret_str = @l_ret_str + @l_rem_char
          set @l_dec = @l_dec / @p_to_base
    end
    return reverse(@l_ret_str)
end
GO


CREATE FUNCTION [dbo].[GetBaseFromOtherBase]
(  @p_in_value varchar(100),
   @p_in_base  bigint, -- ie 16 for hex, 8 for octal, 2 for bin
   @p_to_base  bigint -- ie 16 for hex, 8 for octal, 2 for bin
) returns varchar(100)
as
begin
   return bi_library.dbo.GetOtherBaseFromDecimal(bi_library.dbo.GetDecimalFromOtherBase(@p_in_value,@p_in_base),@p_to_base)
end
GO

USE [ab_test]
GO



ALTER function [dbo].[GetEmojisInString] (@p_in_string nvarchar(max)) returns nvarchar(max)
as
begin
    declare @l_string varchar(1000) = @p_in_string --'✌ðŸ˜ðŸ’‹ðŸ¤·â€â™‚ï¸ðŸ¤³ðŸ±â€ðŸ‘“ðŸ±â€ðŸš€ðŸ±â€ðŸ‰ðŸ˜ŠðŸ’•ðŸ¤žðŸ˜‰ðŸ‘ŒðŸ¤¦â€â™€ï¸ðŸ±â€ðŸðŸ’–😒😘ðŸ˜ðŸ‘🤦â€â™‚ï¸ðŸ‘ðŸ±â€ðŸ‘¤ðŸ±â€ðŸ’»ðŸ™ŒðŸŽ‚😎😂😢😜🎶🌹🎉🤣â¤ðŸ¤·â€â™€ï¸'
    declare @l_pos    int = 1
    declare @l_char   varchar(1)
    declare @l_cont_extended_ascii int = 0
    declare @l_byte1_hex varchar(2)
    declare @l_byte2_hex varchar(2)
    declare @l_byte3_hex varchar(2)
    declare @l_byte4_hex varchar(2)
    declare @l_hex_char  varchar(2)
    declare @l_str       nvarchar(max) = ''
    declare @l_dec_value_found int

    while   @l_pos  <= len(@l_string)
    begin
       set @l_char = substring(@l_string,@l_pos,1)
       --print(ascii(@l_char))
       if ascii(@l_char)>=128 
       begin
          set @l_cont_extended_ascii = @l_cont_extended_ascii+1
          --print(@l_char)
          set @l_hex_char = bi_library.dbo.GetOtherBaseFromDecimal(ascii(@l_char),16)
          if  @l_cont_extended_ascii = 1 
          begin 
             set @l_byte1_hex = @l_hex_char 
             --print('set byte 1')
          end
          else if @l_cont_extended_ascii = 2 
          begin 
             --print('set byte 2')
             set @l_byte2_hex = @l_hex_char
             set @l_dec_value_found = bi_library.dbo.GetDecimalFromOtherBase(
                       reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte1_hex,16,2)),1,6))+
                       reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte2_hex,16,2)),1,6))
                                          ,2)
              if @l_dec_value_found between 128/*U+0080*/ and 2047/*U+07FF  */
              begin
                 --print('2 byte emoji found')
                 set @l_str = @l_str+coalesce(nchar(@l_dec_value_found),'?')
                 set @l_cont_extended_ascii = 0
              end

          end
          else if @l_cont_extended_ascii = 3 
          begin 
              --print('set byte 3')
              set @l_byte3_hex = @l_hex_char 
              set @l_dec_value_found = bi_library.dbo.GetDecimalFromOtherBase(
                       reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte1_hex,16,2)),1,4))+
                       reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte2_hex,16,2)),1,6))+
                       reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte3_hex,16,2)),1,6))
                                          ,2)
              if @l_dec_value_found between 2048/*U+0800*/ and 65535/*U+FFFF*/
              begin
                 --print('3 byte emoji found')
                 set @l_str = @l_str+coalesce(nchar(@l_dec_value_found),'?')
                 set @l_cont_extended_ascii = 0
              end
               --print(@l_str)
          end
          else if @l_cont_extended_ascii = 4 begin set @l_byte4_hex = @l_hex_char

                   set @l_dec_value_found = bi_library.dbo.GetDecimalFromOtherBase(
                                                   reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte1_hex,16,2)),1,3))+
                                                   reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte2_hex,16,2)),1,6))+
                                                   reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte3_hex,16,2)),1,6))+
                                                   reverse(substring(reverse(bi_library.dbo.GetBaseFromOtherBase(@l_byte4_hex,16,2)),1,6))
                                                                      ,2)
                   if @l_dec_value_found between 65536/*U+10000*/ and 1114111/*U+10FFFF*/
                   begin
                      --print('4 byte emoji found')
                      set @l_str = @l_str+coalesce(nchar(@l_dec_value_found),'?')
                      set @l_cont_extended_ascii = 0
                   end
                   else
                   begin
                      --print('out of range byte emoji found')
                      set @l_str = @l_str+@l_char
                   end
                    --print(@l_str)
             --end


             set @l_cont_extended_ascii = 0  
          end
       end
       else
       begin
          --print('snapping')
          set @l_str = @l_str+@l_char
          set @l_cont_extended_ascii = 0
           --print(@l_str)
       end


       set @l_pos = @l_pos+1
    end
    --print(@l_str)
    return @l_str
end

CREATE function [dbo].[HasEmojisInString] (@p_in_string nvarchar(max)) returns int
as
begin
    declare @l_string_emojified varchar(1000)
    set @l_string_emojified = dbo.GetEmojisInString(@p_in_string) 
    if @l_string_emojified <> @p_in_string
    begin
       return 1
    end
    return 0
end
GO
0 голосов
/ 25 октября 2019

Код Unicode символа character равен U + 1F918 , что означает, что он находится за пределами Базовой многоязычной плоскости (BMP) Unicode, которая охватывает кодовые точки до U + FFFF.

Для обработки символов Unicode вне BMP необходимо применить параметры сортировки , поддерживающие дополнительные символы , с именем *_SC:

SQL Server 2012 (11.x) представил новое семейство сопоставлений дополнительных символов (_SC), которые можно использовать с типами данных nchar, nvarchar и sql_variant для представления полного диапазона символов Unicode (000000–10FFFF)

Сравните результаты этого оператора SQL

select 
    nchar(unicode(N'?' collate Latin1_General_100_CI_AS_SC)) as EmojiSC, 
    unicode(N'?' collate Latin1_General_100_CI_AS_SC) as EmojiSCUnicode, 
    cast(N'?' as varbinary) as EmojiBinary, 
    cast(nchar(unicode(N'?')) as varbinary) as EmojiConvBinary,
    unicode(N'?') as EmojiUnicode

при выполнении с базой данных с использованием Latin1_General_CI_AS

EmojiSC EmojiSCUnicode  EmojiBinary EmojiConvBinary EmojiUnicode
NULL    129304          0x3ED818DD  0x3ED8          55358

с базой данных, установленной на Latin1_General_100_CI_AI_SC

EmojiSC EmojiSCUnicode  EmojiBinary EmojiConvBinary EmojiUnicode
?      129304          0x3ED818DD  0x3ED818DD      129304

Почему вы видите «ðŸ¤˜»?

Кодировка U + 1F918 UTF-8: 0xF0 0x9F 0xA4 0x98 , и символы являются результатоминтерпретировать эти коды как символы ANSI .

Почему вы видите «�»?

Символ � - это Unicode ЗАМЕНА ХАРАКТЕР и

используется длязамените неизвестный, нераспознанный или непредставимый символ

, и это потому, что U + D83E является не действительной кодовой точкой Unicode , а первым словом кодовой точки, закодированным как UTF-16 (0xD83E 0xDD18).

Проверка того, что хранится, а не того, что отображается

Отображение данных Unicode может быть сложным, и самый эффективный способ выяснить, что происходит вкапот должен смотреть на байты. В TSQL используйте cast(... as varbinary), чтобы проанализировать, где неправильно работает манипулирование данными Unicode.

...