У меня есть текстовые данные UTF-8 из Твиттера (так что они могут быть очень грязными).При вводе в mysql (набор символов базы данных - utf8) часть текста подвергается обработке.Я хотел бы очистить данные перед их вводом.
Insert ignore search_tweets set id_str = 'pass1',text = 'RT @youpon_info: Youponです!この度はキャンペーン参加ありがとうございました。たくさんの方々にキャンペーンに参加して頂きました。' ;
Insert ignore search_tweets set id_str = 'fail',text = 'RT @youpon_info: Youponです!この度はキャンペーン参加ありがとうございました。たくさんの方々にキャンペーンに参加して頂きました。また次のキャンペーンをすぐに予定しております!もう少' ;
Insert ignore search_tweets set id_str = 'pass2',text = 'また次のキャンペーンをすぐに予定しております!もう少' ;
fail.text = pass1.text + pass2.text
, и они оба входят и выходят из mysql нормально.fail выходит как
RT @youpon_info: Youponã§ãï¼ãã®åº¦ã¯ãã£ã³ãã¼ã³åå ãããã¨ããããã¾ãããããããã®æ¹ã
Я сделал это с прямыми вызовами MySQL, хотя изначально все это было сделано в Ruby datamapper и прямыми вызовами.
Я хотел бы знать, как очиститьданные, так что он входит / выходит из MySQL то же самое.Если возможно, было бы неплохо решение с рубином, но просто знать, как его очистить, было бы здорово.