Java中文问题详解(转)

ID：42770086

大小：36.50 KB

页数：6页

时间：2019-09-20

资源描述：

《Java中文问题详解(转)》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、日期：2001-7-2015:49:16我来说一下tomcat如何实现jsp的你就明白了。预备知识：　1.字节和unicode　　java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式　　是使用字节流的。因此java要对这些字节流经行转化。char是unicode的，而byte是字节.　　java中byte/char互转的函数在sun.io的包中间有。其中bytetocharconverter类是中调度，　　可以用来告诉你，你用的convertor。其中两个很常用的静态函数是　　publicstaticbytet

2、ocharconvertergetdefault();　　publicstaticbytetocharconvertergetconverter(stringencoding);　　如果你不指定converter，则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用　　8859_1　　　　我们来就一个简单的例子：　　　　　"你"的gb码是：0xc4e3,unicode是0x4f60　　　　　你用:　　　　　--encoding="gb2312";　　　　　--byteb[]={(byte)'u00c4',(byte)'u00e

3、3'};　　　　　--convertor=bytetocharconverter.getconverter(encoding);　　　　　--char[]c=converter.convertall(b);　　　　　--for(inti=0;i　　　　　--{　　　　　--system.out.println(integer.tohexstring(c[i]));　　　　　--}　　　　　--打印出来是0x4f60　　　　　--但是如果使用8859_1的编码，打印出来是　　　　　--0x00c4,0x00e3　　　　　----例１　　　　反过来：　　

4、　　--encoding="gb2312";　　　　　　　charc[]={'u4f60'};　　　　　　　convertor=bytetocharconverter.getconverter(encoding);　　　　　--byte[]b=converter.convertall(c);　　　　　--for(inti=0;i　　　　　--{　　　　　--system.out.println(integer.tohexstring(b[i]));　　　　　--}　　　　　　--打印出来是：0xc4,0xe3　　　　　　----例２　　　　　　--

5、如果用8859_1就是0x3f，?号，表示无法转化　　　　　　--　　　　　很多中文问题就是从这两个最简单的类派生出来的。而却有很多类　　　　不直接支持把encoding输入，这给我们带来诸多不便。很多程序难得用encoding　　了，直接用default的encoding，这就给我们移植带来了很多困难　　--　　2.utf-8　　--utf-8是和unicode一一对应的，其实现很简单　　--　　--7位的unicode:0_______　　--11位的unicode:110_____10______　　--16位的unicode:1110____

6、10______10______　　--21位的unicode:11110___10______10______10______　　--大多数情况是只使用到16位以下的unicode:　　--"你"的gb码是：0xc4e3,unicode是0x4f60　　--我们还是用上面的例子　　--　　--例１：0xc4e3的二进制：　　--　　--　　　1100010011100011　　--　　--　　　由于只有两位我们按照两位的编码来排，但是我们发现这行不通，　　--　　--　　　因为第７位不是0因此，返回"?"　　--　　--　　　　　--　　--例２：

7、0x4f60的二进制：　　--　　--　　　0100111101100000　　--　　--　　　我们用utf-8补齐，变成：　　--　　--　　　111001001011110110100000　　--　　--　　　e4--bd--a0　　--　　--　　　于是返回0xe4,0xbd,0xa0　　--　　--　　3.string和byte[]　　--string其实核心是char[],然而要把byte转化成string，必须经过编码。　　--string.length()其实就是char数组的长度，如果使用不同的编码，很可　　--能会错分，造成散字

8、和乱码。　　--例：　　----byte[]b={(byte)'u00c4',(byte)'u00e3'

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Java中文问题详解(转)

Java中文问题详解(转)

相关文章

相关标签