ISO/IEC 8859-1

字符編碼

ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母符号,藉以供使用附加符号拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

ISO-8859-1的别名有: iso-ir-100csISOLatin1latin1l1IBM819Oracle数据库WE8ISO8859P1[1]

与Windows-1252的区别

互联网上,常见把Windows-1252编码的文本误标称为ISO-8859-1,最常见后果是引号与撇号‘ ’“ ”在非Windows环境下被当作不识别字符显示为问号或方块(boxes)字符。大部分现代网页浏览器与e-mail客户端把互联网媒体类型字符集为ISO-8859-1当作Windows-1252来处理。HTML5标准要求把宣称为ISO-8859-1的文本当作Windows-1252编码来解析。[2]

截至2017年10月 (2017-10),4.5%声明是ISO 8859-1编码。[3]这包含了未知数量的实际上是Windows-1252或UTF-8编码的网页常常被浏览器识别为ISO 8859-1编码。

ISO-8859-1与Windows-1252代码页的区别是:码位128至159(十六进制80至9F)原本是罕用的C1控制字符编码范围,被替换为额外的一些常用但未包含在ISO-8859-1中的字符。实际上Windows-1252代码页包含了所有出现在ISO-8859-15中的字符。ISO-8859-1对应的Windows代码页是Windows-28591[4]然而,英文版的Windows 7、Windows10家庭中文版系统上没有Windows-28591代码页。

与ISO/IEC 10646即Unicode的关系

ISO-8859-1对应于ISO/IEC 10646即Unicode的前256个码位。

适用语言

此字符集支持部分于欧洲使用的语言,包括阿尔巴尼亚语巴斯克语布列塔尼语加泰罗尼亚语丹麦语荷兰语法罗语弗里西语加利西亚语德语格陵兰语冰岛语爱尔兰盖尔语意大利语拉丁语卢森堡语挪威语葡萄牙语里托罗曼斯语苏格兰盖尔语西班牙语瑞典语

英语虽然没有重音字母,但仍会标明为ISO/IEC 8859-1编码。除此之外,欧洲以外的部分语言,如南非荷兰语斯瓦希里语印尼语马来语、菲律宾他加洛语等也可使用ISO/IEC 8859-1编码。

法语芬兰语本来也使用ISO/IEC 8859-1来表示。但因它没有法语使用的 œŒŸ 三个字母及芬兰语使用的 ŠšŽž ,故于1998年被ISO/IEC 8859-15所取代。(ISO 8859-15同时加入了欧元符号)

字符集

ISO/IEC 8859-1
 x0x1x2x3x4x5x6x7x8x9xAxBxCxDxExF
0x 
1x 
2xSP!"#$%&'()*+,-./
3x0123456789:;<=>?
4x@ABCDEFGHIJKLMNO
5xPQRSTUVWXYZ[\]^_
6x`abcdefghijklmno
7xpqrstuvwxyz{|}~ 
8x 
9x 
AxNBSP¡¢£¤¥¦§¨©ª«¬SHY®¯
Bx°±²³´µ·¸¹º»¼½¾¿
CxÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ
DxÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß
Exàáâãäåæçèéêëìíîï
Fxðñòóôõö÷øùúûüýþÿ

在上表中,0x20是空格、0xA0是不换行空格、0xAD是选择性连接号

0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定义。(控制字符是由ISO/IEC 6429定义)。

參考資料

参閲

外部链接