Tipos de caracteres C ++
El estandar Char variable en C ++ es un escaso 1 byte de ancho y puede manejar sólo 255 caracteres diferentes. Esto es mucho lo suficientemente para los idiomas europeos, pero no lo suficientemente grande para manejar lenguajes basados en símbolos como kanji.
Varias normas han surgido para extender el juego de caracteres para manejar las demandas de estos idiomas. UTF-8 utiliza una mezcla de 8, 16, y los caracteres de 32 bits para ejecutar casi todos los kanji o jeroglífico que se pueda imaginar, pero aún siendo compatible con sencillo ASCII de 8 bits. UTF-16 utiliza una mezcla de 16 y 32 bits personajes para lograr un conjunto de caracteres ampliado, y UTF-32 utiliza 32 bits para todos los personajes.
UTF significa Unicode Transformation Format, que le da el apodo Unicode común.
La tabla se describen los diferentes tipos de caracteres soportados por C ++. Al principio, C ++ trató de llegar a funcionar con un tipo de caracteres anchos vagamente definido, wchar_t. Este tipo estaba destinado a ser el gran tipo de caracteres nativo de entorno del programa de aplicación. C ++ '11 introdujo tipos específicos de UTF-16 y UTF-32.
Variable | Ejemplo | Lo que es | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Char | 'c' | ASCII o caracteres UTF-8 | wchar_t | L'c ' | Personaje en gran formato | char_16t | u'c ' | UTF-16 caracteres | char_32t | U'c ' | UTF-32 caracteres |
UTF-16 es la codificación estándar para las aplicaciones de Windows. los wchar_t tipo se refiere a UTF-16 en el / compilador gcc Code :: Blocks.
Cualquiera de los tipos de caracteres de la tabla se pueden combinar en cadenas, así:
wchar_t * WideString = L "se trata de una gran cadena" -