VC++的Unicode编程Word文档格式.docx
《VC++的Unicode编程Word文档格式.docx》由会员分享,可在线阅读,更多相关《VC++的Unicode编程Word文档格式.docx(9页珍藏版)》请在冰豆网上搜索。
如果调用一个API函数并给它传递一个ANSI(ASCII字符集以及由此派生并兼容的字符集,如:
GB2312,通常称为ANSI字符集)字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。
如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给您的应用程序。
进行这些字符串的转换需要占用系统的时间和内存。
如果用Unicode来开发应用程序,就能够使您的应用程序更加有效地运行。
下面例举几个字符的编码以简单演示ANSI和Unicode的区别:
字符
A
N
和
ANSI码
41H
4eH
cdbaH
Unicode码
0041H
004eH
548cH
三、使用C++进行Unicode编程
对宽字符的支持其实是ANSIC标准的一部分,用以支持多字节表示一个字符。
宽字符和Unicode并不完全等同,Unicode只是宽字符的一种编码方式。
1、宽字符的定义
在ANSI中,一个字符(char)的长度为一个字节(Byte)。
使用Unicode时,一个字符占据一个字,C++在wchar.h头文件中定义了最基本的宽字符类型wchar_t:
typedefunsignedshortwchar_t;
从这里我们可以清楚地看到,所谓的宽字符就是无符号短整数。
2、常量宽字符串
对C++程序员而言,构造字符串常量是一项经常性的工作。
那么,如何构造宽字符字符串常量呢?
很简单,只要在字符串常量前加上一个大写的L就可以了,比如:
wchar_t*str1=L"
Hello"
;
这个L非常重要,只有带上它,编译器才知道你要将字符串存成一个字符一个字。
还要注意,在L和字符串之间不能有空格。
3、宽字符串库函数
为了操作宽字符串,C++专门定义了一套函数,比如求宽字符串长度的函数是
size_t__cdelwchlen(constwchar_t*);
为什么要专门定义这些函数呢?
最根本的原因是,ANSI下的字符串都是以’\0’来标识字符串尾的(Unicode字符串以“\0\0”结束),许多字符串函数的正确操作均是以此为基础进行。
而我们知道,在宽字符的情况下,一个字符在内存中要占据一个字的空间,这就会使操作ANSI字符的字符串函数无法正确操作。
以”Hello”字符串为例,在宽字符下,它的五个字符是:
0x00480x00650x006c0x006c0x006f
在内存中,实际的排列是:
480065006c006c006f00
于是,ANSI字符串函数,如strlen,在碰到第一个48后的00时,就会认为字符串到尾了,用strlen对宽字符串求长度的结果就永远会是1!
4、用宏实现对ANSI和Unicode通用的编程
可见,C++有一整套的数据类型和函数实现Unicode编程,也就是说,您完全可以使用C++实现Unicode编程。
如果我们想要我们的程序有两个版本:
ANSI版本和Unicode版本。
当然,编写两套代码分别实现ANSI版本和Unicode版本完全是行得通的。
但是,针对ANSI字符和Unicode字符维护两套代码是非常麻烦的事情。
为了减轻编程的负担,C++定义了一系列的宏,帮助您实现对ANSI和Unicode的通用编程。
C++宏实现ANSI和Unicode的通用编程的本质是根据”_UNICODE”(注意,有下划线)定义与否,这些宏展开为ANSI或Unicode字符(字符串)。
如下是tchar.h头文件中部分代码摘抄:
#ifdef_UNICODE
typedefwchar_tTCHAR;
#define__T(x)L##x
#define_T(x)__T(x)
#else
#define__T(x)x
typedefcharTCHAR;
#endif
可见,这些宏根据”_UNICODE”定义与否,分别展开为ANSI或Unicode字符。
tchar.h头文件中定义的宏可以分为两类:
A、实现字符和常量字符串定义的宏我们只列出两个最常用的宏:
宏
未定义_UNICODE(ANSI字符)
定义了_UNICODE(Unicode字符)
TCHAR
char
wchar_t
_T(x)
x
L##x
注意:
“##”是ANSIC标准的预处理语法,它叫做“粘贴符号”,表示将前面的L添加到宏参数上。
也就是说,如果我们写_T(“Hello”),展开后即为L“Hello”
B、实现字符串函数调用的宏
C++为字符串函数也定义了一系列宏,同样,我们只例举几个常用的宏:
_tcschr
strchr
wcschr
_tcscmp
strcmp
wcscmp
_tcslen
strlen
wcslen
四、使用Win32API进行Unicode编程
Win32API中定义了一些自己的字符数据类型。
这些数据类型的定义在winnt.h头文件中。
例如:
typedefcharCHAR;
typedefunsignedshortWCHAR;
//wc,16-bitUNICODEcharacter
typedefCONSTCHAR*LPCSTR,*PCSTR;
Win32API在winnt.h头文件中定义了一些实现字符和常量字符串的宏进行ANSI/Unicode通用编程。
同样,只例举几个最常用的:
#ifdefUNICODE
typedefWCHARTCHAR,*PTCHAR;
typedefLPWSTRLPTCH,PTCH;
typedefLPWSTRPTSTR,LPTSTR;
typedefLPCWSTRLPCTSTR;
#define__TEXT(quote)L##quote//r_winnt
#else/*UNICODE*///r_winnt
typedefcharTCHAR,*PTCHAR;
typedefLPSTRLPTCH,PTCH;
typedefLPSTRPTSTR,LPTSTR;
typedefLPCSTRLPCTSTR;
#define__TEXT(quote)quote//r_winnt
#endif/*UNICODE*///r_winnt
从以上头文件可以看出,winnt.h根据是否定义了UNICODE(没有下划线),进行条件编译。
Win32API也定义了一套字符串函数,它们根据是否定义了“UNICODE”分别展开为ANSI和Unicode字符串函数。
如:
lstrlen。
API的字符串操作函数和C++的操作函数可以实现相同的功能,所以,如果需要的话,建议您尽可能使用C++的字符串函数,没必要去花太多精力再去学习API的这些东西。
也许您从来没有注意到,Win32API实际上有两个版本。
一个版本接受MBCS字符串,另一个接受Unicode字符串。
其实根本没有SetWindowText()这个API函数,相反,有SetWindowTextA()和SetWindowTextW()。
后缀A表明这是MBCS函数,后缀W表示这是Unicode版本的函数。
这些API函数的头文件在winuser.h中声明,下面例举winuser.h中的SetWindowText()函数的声明部分:
#ifdefUNICODE
#defineSetWindowTextSetWindowTextW
#defineSetWindowTextSetWindowTextA
#endif//!
UNICODE
可见,API函数根据定义UNICODE与否决定指向Unicode版本还是MBCS版本。
细心的读者可能已经注意到了UNICODE和_UNICODE的区别,前者没有下划线,专门用于Windows头文件;
后者有一个前缀下划线,专门用于C运行时头文件。
换句话说,也就是在ANSIC++语言里面根据_UNICODE(有下划线)定义与否,各宏分别展开为Unicode或ANSI字符,在Windows里面根据UNICODE(无下划线)定义与否,各宏分别展开为Unicode或ANSI字符。
在后面我们将会看到,实际使用中我们不加严格区分,同时定义_UNICODE和UNICODE,以实现UNICODE版本编程。
五、VC++6.0中编写Unicode编码的应用程序
VC++6.0支持Unicode编程,但默认的是ANSI,所以开发人员只需要稍微改变一下编写代码的习惯便可以轻松编写支持UNICODE的应用程序。
使用VC++6.0进行Unicode编程主要做以下几项工作:
1、为工程添加UNICODE和_UNICODE预处理选项。
具体步骤:
打开[工程]->
[设置…]对话框,如图1所示,在C/C++标签对话框的“预处理程序定义”中去除_MBCS,加上_UNICODE,UNICODE。
(注意中间用逗号隔开)改动后如图2:
图一
图二
在没有定义UNICODE和_UNICODE时,所有函数和类型都默认使用ANSI的版本;
在定义了UNICODE和_UNICODE之后,所有的MFC类和WindowsAPI都变成了宽字节版本了。
2、设置程序入口点
因为MFC应用程序有针对Unicode专用的程序入口点,我们要设置entrypoint。
否则就会出现连接错误。
设置entrypoint的方法是:
[设置…]对话框,在Link页的Output类别的EntryPoint里填上wWinMainCRTStartup。
图三
3、使用ANSI/Unicode通用数据类型
微软提供了一些ANSI和Unicode兼容的通用数据类型,我们最常用的数据类型有_T,TCHAR,LPTSTR,LPCTSTR。
顺便说一下,LPCTSTR和constTCHAR*是完全等同的。
其中L表示long指针,这是为了兼容Windows3.1等16位操作系统遗留下来的,在Win32中以及其它的32位操作系统中,long指针和near指针及far修饰符都是为了兼容的作用,没有实际意义。
P(pointer)表示这是一个指针;
C(const)表示是一个常量;
T(_T宏)表示兼容ANSI和Unicode,STR(string)表示这个变量是一个字符串。
综上可以看出,LPCTSTR表示一个指向常固定地址的可以根据一些宏定义改变语义的字符串。
比如:
TCHAR*szText=_T(“Hello!
”);
TCHARszText[]=_T(“ILoveYou”);
LPCTSTRlpszText=_T(“大家好!
使用函数中的参数最好也要有变化,比如:
MessageBox(_T(“你好”));
其实,在上面的语句中,即使您不加_T宏,MessageBox函数也会自动把“你好”字符串进行强制转换。
但我还是推荐您使用_T宏,以表示您有Unicode编码意识。
4、修改字符串运算问题
一些字符串操作函数需要获取字符串的字符数(sizeof(szBuffer)/sizeof(TCHAR)),而另一些函数可能需要获取字符串的字节数sizeof(szBuffer)。
您应该注意该问题并仔细分析字符串操作函数,以确定能够得到正确的结果。
ANSI操作函数以str开头,如strcpy(),strcat(),strlen();
Unicode操作函数以wcs开头,如wcscpy,wcscpy(),wcslen();
ANSI/Unicode操作函数以_tcs开头_tcscpy(C运行期库);
ANSI/Unicode操作函数以lstr开头lstrcpy(Windows函数);
考虑ANSI和Unicode的兼容,我们需要使用以_tcs开头或lstr开头的通用字符串操作函数。
六、举个Unicode编程的例子
第一步:
打开VC++6.0,新建基于对话框的工程Unicode,主对话框IDD_UNICODE_DIALOG中加入一个按钮控件,双击该控件并添加该控件的响应函数:
voidCUnicodeDlg:
:
OnButton1()
{
TCHAR*str1=_T("
ANSI和UNICODE编码试验"
);
m_disp=str1;
UpdateData(FALSE);
}
添加静态文本框IDC_DISP,使用ClassWizard给该控件添加CString类型变量m_disp。
使用默认ANSI编码环境编译该工程,生成Unicode.exe。
第二步:
打开“控制面板”,单击“日期、时间、语言和区域设置”选项,在“日期、时间、语言和区域设置”窗口中继续单击“区域和语言选项”选项,弹出“区域和语言选项”对话框。
在该对话框中,单击“高级”标签,将“非Unicode的程序的语言”选项改为“日语”,单击“应用”按钮,如图四:
图四
弹出的对话框单击“是”,重新启动计算机使设置生效。
运行Unicode.exe程序并单击“Button1”按钮,看,静态文本框出现了乱码。
第三步:
改为Unicode编码环境编译该工程,生成Unicode.exe。
再次运行Unicode.exe程序并单击“Button1”按钮。
看到Unicode编码的优势了吧。
就说这些吧,祝您好运。