CAST и IsNumeric - PullRequest
       41

CAST и IsNumeric

25 голосов
/ 03 декабря 2008

Почему следующий запрос возвращает «Ошибка преобразования типа данных varchar в bigint»? Разве IsNumeric не делает CAST безопасным? Я пробовал каждый числовой тип данных в приведении и получаю ту же ошибку «Ошибка преобразования ...». Я не верю, что размер полученного числа является проблемой, потому что переполнение - это другая ошибка.

Интересно то, что в студии управления результаты фактически отображаются на панели результатов за доли секунды до того, как ошибка возвращается.

SELECT CAST(myVarcharColumn AS bigint)  
FROM myTable  
WHERE IsNumeric(myVarcharColumn) = 1 AND myVarcharColumn IS NOT NULL  
GROUP BY myVarcharColumn

Есть мысли?

Ответы [ 11 ]

56 голосов
/ 03 декабря 2008

IsNumeric возвращает 1, если значение varchar можно преобразовать в ЛЮБОЙ тип чисел. Сюда входят int, bigint, decimal, numeric, real & float.

Научная запись может вызвать проблемы. Например:

Declare @Temp Table(Data VarChar(20))

Insert Into @Temp Values(NULL)
Insert Into @Temp Values('1')
Insert Into @Temp Values('1e4')
Insert Into @Temp Values('Not a number')

Select Cast(Data as bigint)
From   @Temp
Where  IsNumeric(Data) = 1 And Data Is Not NULL

Существует один прием, который вы можете использовать с IsNumeric, чтобы он возвращал 0 для чисел с научной нотацией. Вы можете применить аналогичный прием, чтобы предотвратить десятичные значения.

IsNumeric (YourColumn + 'e0')

IsNumeric (YourColumn + '.0e0')

Попробуйте.

SELECT CAST(myVarcharColumn AS bigint)
FROM myTable
WHERE IsNumeric(myVarcharColumn + '.0e0') = 1 AND myVarcharColumn IS NOT NULL
GROUP BY myVarcharColumn
7 голосов
/ 14 февраля 2014

Справочная информация:

Я использую стороннюю базу данных, которая постоянно получает новые данные от сторонних поставщиков.
Моя работа состоит в том, чтобы разобрать ужасное поле Varchar, используемое для хранения результатов.
Мы хотим проанализировать как можно больше данных, и это решение показывает, как можно «очистить» данные, чтобы не пропустить действительные записи.

  1. Некоторые результаты написаны свободно.
  2. Некоторые из них являются перечислениями (да, нет, синий, черный и т. Д.).
  3. Некоторые являются целыми числами.
  4. Другие используют десятичные дроби.
  5. Многие представляют собой проценты, которые, если их преобразовать в целое число, могут сбить вас с толку позже.

Если мне нужно запросить заданный десятичный диапазон (скажем, от -1,4 до 3,6, где это применимо), мои возможности ограничены.
Я обновил свой запрос ниже, чтобы использовать предложение @GMastros для добавления 'e0'.
Спасибо @GMastros, это спасло меня от лишних 2 строк логики.

Решение:

--NOTE: I'd recommend you use this to convert your numbers and store them in a separate table (or field).
--      This way you may reuse them when when working with legacy/3rd-party systems, instead of running these calculations on the fly each time.
SELECT Result.Type, Result.Value, Parsed.CleanValue, Converted.Number[Number - Decimal(38,4)],
       (CASE WHEN Result.Value IN ('0', '1', 'True', 'False') THEN CAST(Result.Value as Bit) ELSE NULL END)[Bit],--Cannot convert 1.0 to Bit, it must be in Integer format already.
       (CASE WHEN Converted.Number BETWEEN 0 AND 255 THEN CAST(Converted.Number as TinyInt) ELSE NULL END)[TinyInt],
       (CASE WHEN Converted.Number BETWEEN -32768 AND 32767 AND Result.Value LIKE '%\%%' ESCAPE '\' THEN CAST(Converted.Number / 100.0 as Decimal(9,4)) ELSE NULL END)[Percent],
       (CASE WHEN Converted.Number BETWEEN -32768 AND 32767 THEN CAST(Converted.Number as SmallInt) ELSE NULL END)[SmallInt],
       (CASE WHEN Converted.Number BETWEEN -214748.3648 AND 214748.3647 THEN CAST(Converted.Number as SmallMoney) ELSE NULL END)[SmallMoney],
       (CASE WHEN Converted.Number BETWEEN -2147483648 AND 2147483647 THEN CAST(Converted.Number as Int) ELSE NULL END)[Int],
       (CASE WHEN Converted.Number BETWEEN -2147483648 AND 2147483647 THEN CAST(CAST(Converted.Number as Decimal(10)) as Int) ELSE NULL END)[RoundInt],--Round Up or Down instead of Truncate.
       (CASE WHEN Converted.Number BETWEEN -922337203685477.5808 AND 922337203685477.5807 THEN CAST(Converted.Number as Money) ELSE NULL END)[Money],
       (CASE WHEN Converted.Number BETWEEN -9223372036854775808 AND 9223372036854775807 THEN CAST(Converted.Number as BigInt) ELSE NULL END)[BigInt],
       (CASE WHEN Parsed.CleanValue IN ('1', 'True', 'Yes', 'Y', 'Positive', 'Normal')   THEN CAST(1 as Bit)
             WHEN Parsed.CleanValue IN ('0', 'False', 'No', 'N', 'Negative', 'Abnormal') THEN CAST(0 as Bit) ELSE NULL END)[Enum],
       --I couln't use just Parsed.CleanValue LIKE '%e%' here because that would match on "True" and "Negative", so I also had to match on only allowable characters. - 02/13/2014 - MCR.
       (CASE WHEN ISNUMERIC(Parsed.CleanValue) = 1 AND Parsed.CleanValue LIKE '%e%' THEN Parsed.CleanValue ELSE NULL END)[Exponent]
  FROM
  (
    VALUES ('Null', NULL), ('EmptyString', ''), ('Spaces', ' - 2 . 8 % '),--Tabs and spaces mess up IsNumeric().
           ('Bit', '0'), ('TinyInt', '123'), ('Int', '123456789'), ('BigInt', '1234567890123456'),
           --('VeryLong', '12345678901234567890.1234567890'),
           ('VeryBig', '-1234567890123456789012345678901234.5678'),
           ('TooBig',  '-12345678901234567890123456789012345678.'),--34 (38-4) is the Longest length of an Integer supported by this query.
           ('VeryLong', '-1.2345678901234567890123456789012345678'),
           ('TooLong', '-12345678901234567890.1234567890123456789'),--38 Digits is the Longest length of a Number supported by the Decimal data type.
           ('VeryLong', '000000000000000000000000000000000000001.0000000000000000000000000000000000000'),--Works because Casting ignores leading zeroes.
           ('TooLong', '.000000000000000000000000000000000000000'),--Exceeds the 38 Digit limit for all Decimal types after the decimal-point.
           --Dot(.), Plus(+), Minus(-), Comma(,), DollarSign($), BackSlash(\), Tab(0x09), and Letter-E(e) all yeild false-posotives with IsNumeric().
           ('Decimal', '.'), ('Decimal', '.0'), ('Decimal', '3.99'),
           ('Positive', '+'), ('Positive', '+20'),
           ('Negative', '-'), ('Negative', '-45'), ('Negative', '- 1.23'),
           ('Comma', ','), ('Comma', '1,000'),
           ('Money', '$'), ('Money', '$10'),
           ('Percent', '%'), ('Percent', '110%'),--IsNumeric will kick out Percent(%) signs.
           ('BkSlash', '\'), ('Tab', CHAR(0x09)),--I've actually seen tab characters in our data.
           ('Exponent', 'e0'), ('Exponent', '100e-999'),--No SQL-Server datatype could hold this number, though it is real.
           ('Enum', 'True'), ('Enum', 'Negative')
  ) AS Result(Type, Value)--O is for Observation.
  CROSS APPLY
  ( --This Step is Optional.  If you have Very Long numbers with tons of leading zeros, then this is useful.  Otherwise is overkill if all the numbers you want have 38 or less digits.
    --Casting of trailing zeros count towards the max 38 digits Decimal can handle, yet Cast ignores leading-zeros.  This also cleans up leading/trailing spaces. - 02/25/2014 - MCR.
    SELECT LTRIM(RTRIM(SUBSTRING(Result.Value, PATINDEX('%[^0]%', Result.Value + '.'), LEN(Result.Value))))[Value]
  ) AS Trimmed
  CROSS APPLY
  (
    SELECT --You will need to filter out other Non-Keyboard ASCII characters (before Space(0x20) and after Lower-Case-z(0x7A)) if you still want them to be Cast as Numbers. - 02/15/2014 - MCR.
           REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(Trimmed.Value,--LTRIM(RTRIM(Result.Value)),
           (CHAR(0x0D) + CHAR(0x0A)), ''),--Believe it or not, we have people that press carriage return after entering in the value.
           CHAR(0x09), ''),--Apparently, as people tab through controls on a page, some of them inadvertently entered Tab's for values.
           ' ', ''),--By replacing spaces for values (like '- 2' to work), you open the door to values like '00 12 3' - your choice.
           '$', ''), ',', ''), '+', ''), '%', ''), '/', '')[CleanValue]
  ) AS Parsed--P is for Parsed.
  CROSS APPLY
  ( --NOTE: I do not like my Cross-Applies to feed into each other.
    --      I'm paranoid it might affect performance, but you may move this into the select above if you like. - 02/13/2014 - MCR.
    SELECT (CASE WHEN ISNUMERIC(Parsed.CleanValue + 'e0') = 1--By concatenating 'e0', I do not need to check for: Parsed.CleanValue NOT LIKE '%e%' AND Parsed.CleanValue NOT IN ('.', '-')
                 --  If you never plan to work with big numbers, then could use Decimal(19,4) would be best as it only uses 9 storage bytes compared to the 17 bytes that 38 precision requires.
                 --  This might help with performance, especially when converting a lot of data.
                  AND CHARINDEX('.', REPLACE(Parsed.CleanValue, '-', '')) - 1    <= (38-4)--This is the Longest Integer supported by Decimal(38,4)).
                  AND LEN(REPLACE(REPLACE(Parsed.CleanValue, '-', ''), '.', '')) <= 38--When casting to a Decimal (of any Precision) you cannot exceed 38 Digits. - 02/13/2014 - MCR.
                 THEN CAST(Parsed.CleanValue as Decimal(38,4))--Scale of 4 used is the max that Money has.  This is the biggest number SQL Server can hold.
                 ELSE NULL END)[Number]
  ) AS Converted--C is for Converted.

Выход:

Снимок экрана ниже был отформатирован и обрезан для соответствия StackOverflow.
Фактические результаты имеют больше столбцов. MikeTeeVee's IsNumeric Casting

Исследование:

Рядом с каждым запросом - результат.
Интересно увидеть недостатки IsNumeric, а также ограничения CASTing.
Я показываю это, чтобы вы могли увидеть предварительные исследования, которые были направлены на написание запроса выше.
Важно понимать каждое дизайнерское решение (на случай, если вы собираетесь что-то вырезать).

SELECT ISNUMERIC('')--0.  This is understandable, but your logic may want to default these to zero.
SELECT ISNUMERIC(' ')--0.  This is understandable, but your logic may want to default these to zero.
SELECT ISNUMERIC('%')--0.
SELECT ISNUMERIC('1%')--0.
SELECT ISNUMERIC('e')--0.
SELECT ISNUMERIC('  ')--1.  --Tab.
SELECT ISNUMERIC(CHAR(0x09))--1.  --Tab.
SELECT ISNUMERIC(',')--1.
SELECT ISNUMERIC('.')--1.
SELECT ISNUMERIC('-')--1.
SELECT ISNUMERIC('+')--1.
SELECT ISNUMERIC('$')--1.
SELECT ISNUMERIC('\')--1.  '
SELECT ISNUMERIC('e0')--1.
SELECT ISNUMERIC('100e-999')--1.  No SQL-Server datatype could hold this number, though it is real.
SELECT ISNUMERIC('3000000000')--1.  This is bigger than what an Int could hold, so code for these too.
SELECT ISNUMERIC('1234567890123456789012345678901234567890')--1.  Note: This is larger than what the biggest Decimal(38) can hold.
SELECT ISNUMERIC('- 1')--1.
SELECT ISNUMERIC('  1  ')--1.
SELECT ISNUMERIC('True')--0.
SELECT ISNUMERIC('1/2')--0.  No love for fractions.

SELECT CAST('e0'  as Int)--0.  Surpise!  Casting to Decimal errors, but for Int is gives us zero, which is wrong.
SELECT CAST('0e0'  as Int)--0.  Surpise!  Casting to Decimal errors, but for Int is gives us zero, which is wrong.
SELECT CAST(CHAR(0x09) as Decimal(12,2))--Error converting data type varchar to numeric.  --Tab.
SELECT CAST('   1' as Decimal(12,2))--Error converting data type varchar to numeric.  --Tab.
SELECT CAST(REPLACE('   1', CHAR(0x09), '') as Decimal(12,2))--Error converting data type varchar to numeric.  --Tab.
SELECT CAST(''  as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST(''  as Int)--0.  Surpise!  Casting to Decimal errors, but for Int is gives us zero, which is wrong.
SELECT CAST(',' as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST('.' as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST('-' as Decimal(12,2))--Arithmetic overflow error converting varchar to data type numeric.
SELECT CAST('+' as Decimal(12,2))--Arithmetic overflow error converting varchar to data type numeric.
SELECT CAST('$' as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST('$1' as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST('1,000' as Decimal(12,2))--Error converting data type varchar to numeric.
SELECT CAST('- 1'   as Decimal(12,2))--Error converting data type varchar to numeric.  (Due to spaces).
SELECT CAST('  1  ' as Decimal(12,2))--1.00  Leading and trailing spaces are okay.
SELECT CAST('1.' as Decimal(12,2))--1.00
SELECT CAST('.1' as Decimal(12,2))--0.10
SELECT CAST('-1' as Decimal(12,2))--1.00
SELECT CAST('+1' as Decimal(12,2))--1.00
SELECT CAST('True'  as Bit)--1
SELECT CAST('False' as Bit)--0
--Proof: The Casting to Decimal cannot exceed 38 Digits, even if the precision is well below 38.
SELECT CAST('1234.5678901234567890123456789012345678' as Decimal(8,4))--1234.5679
SELECT CAST('1234.56789012345678901234567890123456789' as Decimal(8,4))--Arithmetic overflow error converting varchar to data type numeric.

--Proof: Casting of trailing zeros count towards the max 38 digits Decimal can handle, yet it ignores leading-zeros.
SELECT CAST('.00000000000000000000000000000000000000' as Decimal(8,4))--0.0000  --38 Digits after the decimal point.
SELECT CAST('000.00000000000000000000000000000000000000' as Decimal(8,4))--0.0000  --38 Digits after the decimal point and 3 zeros before the decimal point.
SELECT CAST('.000000000000000000000000000000000000000' as Decimal(8,4))--Arithmetic overflow error converting varchar to data type numeric.  --39 Digits after the decimal point.
SELECT CAST('1.00000000000000000000000000000000000000' as Decimal(8,4))--Arithmetic overflow error converting varchar to data type numeric.  --38 Digits after the decimal point and 1 non-zero before the decimal point.
SELECT CAST('000000000000000000000000000000000000001.0000000000000000000000000000000000000' as Decimal(8,4))--1.0000

--Caveats: When casting to an Integer:
SELECT CAST('3.0' as Int)--Conversion failed when converting the varchar value '3.0' to data type int.
--NOTE: When converting from character data to Int, you may want to do a double-conversion like so (if you want to Round your results first):
SELECT CAST(CAST('3.5'  as Decimal(10))   as Int)--4.  Decimal(10) has no decimal precision, so it rounds it to 4 for us BEFORE converting to an Int.
SELECT CAST(CAST('3.5'  as Decimal(11,1)) as Int)--3.  Decimal (11,1) HAS decimal precision, so it stays 3.5 before converting to an Int, which then truncates it.
--These are the best ways to go if you simply want to Truncate or Round.
SELECT CAST(CAST('3.99' as Decimal(10)) as Int)--3.  Good Example of Rounding.
SELECT CAST(FLOOR('3.99') as Int)--3.  Good Example fo Truncating.
4 голосов
/ 03 декабря 2008

Лучшее решение - перестать хранить целые числа в столбце varchar. Очевидно, что существует проблема с данными, когда данные интерпретируются как числовые, но не могут быть преобразованы как таковые. Вам необходимо найти записи, в которых есть проблема, и исправить их, если данные таковы, что их можно и нужно исправить. В зависимости от того, что вы храните и почему это varchar для начала, вам может потребоваться исправить запрос вместо данных. Но это будет легче сделать, если вы сначала найдете записи, которые взрывают ваш текущий запрос.

Как это сделать, это проблема. Относительно легко найти десятичное место в данных, чтобы увидеть, есть ли у вас десятичные числа (кроме 0, которые будут преобразованы), используя charindex. Вы также можете найти любую запись, содержащую e или $ или любой другой символ, который может быть интерпретирован как числовой в соответствии с уже указанными источниками. Если у вас нет большого количества записей, быстрое визуальное сканирование данных, вероятно, найдет его, особенно если вы сначала сортируете по этому полю.

Иногда, когда я застрял в поиске неверных данных, вызывающих сбои запроса, я помещал данные во временную таблицу и затем пытался обрабатывать пакетами (используя интерполяцию), пока не нашел тот, который взорвал на. Начните с первой 1000 (не забывайте использовать порядок по, иначе вы не получите те же результаты, когда удаляете хорошие записи, а 1000 - только лучшее предположение, если у вас миллионы записей начинаются с большего числа). Если это пройдет, удалите эти 1000 записей и выберите следующую партию. Если это не удалось, выберите меньшую партию. Как только вы дошли до числа, которое можно легко визуально отсканировать, вы обнаружите проблему. Я смог довольно быстро найти записи о проблемах, когда у меня есть миллионы записей и странная ошибка, что ни один из запросов, которые я пробовал (которые в основном предполагают, что может быть не так), не нашел проблему.

3 голосов
/ 03 декабря 2008

Попробуйте и посмотрите, все ли еще появляется сообщение об ошибке ...

SELECT CAST(CASE 
            WHEN IsNumeric(myVarcharColumn) = 0
                THEN 0
            ELSE myVarcharColumn
            END AS BIGINT)
FROM myTable
WHERE IsNumeric(myVarcharColumn) = 1
    AND myVarcharColumn IS NOT NULL
GROUP BY myVarcharColumn
2 голосов
/ 05 апреля 2013

ISNUMERIC просто ... глупо. Ты бы использовал это вообще. Все случаи ниже возврата 1:

ISNUMERIC('-')
ISNUMERIC('.')
ISNUMERIC('-$.') 

Для любых целочисленных типов вместо: ISNUMERIC(@Value) = 1 просто используйте: (@Value NOT LIKE '[^0-9]') OR (@Value NOT LIKE '-[^0-9]'

Единственное хорошее решение - не использовать ISNUMERIC.

1 голос
/ 05 июня 2014

У меня была та же проблема, и я придумал скалярную функцию, как Im на 2008 SQL

ALTER Function [dbo].[IsInteger](@Value VarChar(18))
Returns Bit
As 
Begin

  Return IsNull(
     (Select Case When CharIndex('.', @Value) > 0 
                  Then 0
                  Else 1
             End
      Where IsNumeric(@Value + 'e0') = 1), 0)    
End

Если вы находитесь в 2012 году, вы можете использовать TRY_CONVERT

1 голос
/ 03 декабря 2008

Согласно BOL ISNUMERIC возвращает 1, когда входное выражение оценивается как допустимый числовой тип данных; в противном случае возвращается 0.

Допустимые числовые типы данных включают следующее:

  • INT
  • цифровая
  • BIGINT
  • деньги
  • SMALLINT
  • smallmoney
  • TINYINT
  • поплавок
  • 1024 * десятичного *
  • реальный

Итак, как отмечали другие, у вас будут некоторые данные, которые пройдут ISNUMERIC тест, но не пройдут при приведении к bigint

1 голос
/ 03 декабря 2008

Попробуйте обернуть его в футляр:

select CASE WHEN IsNumeric(mycolumn) = 1 THEN CAST(mycolumn as bigint) END
FROM stack_table
WHERE IsNumeric(mycolumn) = 1
GROUP BY mycolumn
0 голосов
/ 05 января 2017

есть функции DAX (IsError или IfError), которые могут помочь в этой ситуации, но у нас их нет на нашем SQL Server 2008 R2. Похоже, какой-то дополнительный пакет анализа для SQL Server.

0 голосов
/ 23 марта 2016

У меня была та же проблема в MSSQL 2014, вызванная запятой вместо полной остановки: isnumeric ('9090,23') дает 1; приведение ('9090,23' как float) завершается неудачей

Я заменил ',' на '.'

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...