第27页 第四章
- 章节名:第四章
- 页码:第27页
每一位软件开发人员必须、绝对要至少具备UNICODE与字符集知识(没有任何例外!) 引自 第四章 ——这是标题
我发现流行的Web开发工具PHP,几乎完全忽视了字符编码方面的问题而单纯地使用8位字符,它不太可能开发出好的国际Web应用程序。 因此,我要做出一项宣示:如果你是一位21世纪的程序员,却不知道字符、字符集、编码技术与Unicode方面的基本知识,那么要是让我逮着,我打算通过让你在潜艇上剥6个月的洋葱来惩罚你。我发誓我会那么做。 ASCII能够使用32-127之间的数字表示各个字符。这种编码能够很方便的用七个二进制位来表示。由于那个时期生产的大多数计算机使用8位大小的字节,因此用户不仅可以存放所有可能的ASCII字符,而且有整整以为空余下来。 引自 第四章 把128-255之间的编码做个人用途的人太多,导致计算机之间交换发生混乱。
Unicode勇往直前地创建一种单一字符集,试图囊括地球上所有合理文字体系,以及诸如一些Klingon之类的人为书写体制。一些人错误地人为,Unicode就是一种每个字符占用16个二进制位,从而总共可以表示65536个可能的字符的16位字符编码方案。这并不十分正确。 事实上,Unicode在考虑字符方面给出了一种不同的思路。你需要去理解它的这种思考方式,否则一切显得毫无意义。 于是乎,光彩照人的UTF-8概念就横空出世了。UTF-8是另外一种存放字符串的Unicode代码点的体系,他在内存中使用8位字节存放那些神奇的U+编码。 即使你将我刚才所说的一切忘得一干二净,我也要请你记住一个极其重要的事实。有一个字符串,而不知道它所使用的编码方案是毫无意义的。 如果在内存、文件或者电子邮件中有一个字符串,那么应该知道它使用的是什么编码方案,否则就不能将它正确地解释或者显示给用户。 对于电子邮件信息,需要在表窗体标题放一个字符串 Content-Type:text/plain;charset="UTF-8". 不过,在知道HTML文件使用了什么编码方案之前,如何读取HTML文件呢。幸运的是,几乎每个用得很普遍的编码方案,对码值32-127之间的字符都以相同方式进行处理。因此,人们总是可以充分展示HTML页而不必使用一些很稀奇的字母: 引自 第四章 <html> <head> <meta http-equiv="Content-Type" content="text/html";charset=utf-8">CityDesk决定在内部用UCS-2(2字节)Unicode处理一切。这种编码形式也是VisualBasic、COM与Windows NT/2000/XP作为其固有字符串类型使用的。在C++代码中,字符串就定义为wchar_t而不是char,并且使用以wcs打头的函数而不是以str打头的函数(比如说,使用wcscat与wcslen,而不是strcat与strlen)。 CityDesk发布Web版时,将网页转换为UTF-8编码形式,该编码方案多年来一直得到Web浏览器的良好支持。 引自 第四章
32人阅读
bluetingting对本书的所有笔记 · · · · · ·
-
第4页 深入底层
我觉得,人们所犯的一些最大错误(即使再体系结构的最高层)的根源在于,对处于最底层的几个...
-
第14页 JOEL测试:改进代码的12个步骤
Joel测试 1.使用源代码控制机制吗 2.能一步完成连编吗 3.每天都做连编吗 4.有故障信息数据库...
-
第27页 第四章
-
第38页 第五章—轻松写就功能规格说明书
我相信,在任何重大项目(要花一周的编码时间或者一个程序员之力才能完成)上,如果不编写规...
-
第44页 第六章——什么是规格说明书
功能规格说明书(functional specification)描述的完全是从用户视角看产品如何工作的内容。它...
> 查看全部17篇
说明 · · · · · ·
表示其中内容是对原文的摘抄