字符集

标准ASCII字符集

标准ASCII字符集是美国信息交换标准代码,包括了英文,符号

一个字节由八个bite位组成,一个字符,标点,或者数字都占用一个字节

标准ASCII使用1个字节存储一个字符,首位是0,总共可以表示128个字符

GBK:(汉字内码扩展规范,国标)

汉字编码字符集,包含了2万多个汉字等字符,GBK中一个中文字符编码成两个字节存储

注意:GBK兼容了ASCII字符集

Unicode字符集(统一码,叫万国码)

Unicode是国际组织制定的,可以容纳世界上所有文字,符号的字符集

UTF-8:

是Unicode字符集的一种编码方案,采取可变编码方案,共分为四个长度区:1个字节 2个字节 3个字节 4个字节

英文字符,数字等只占一个字节(兼容ASCII字符集) 汉字字符占用3个字节

字符集的编码,解码操作:

用java代码对字符进行编码,解码操作

对字符集进行编码和解码

package com.file.test;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class UnicodeTest {
    public static void main(String[] args) throws UnsupportedEncodingException {
        //编码
        String data="a爱wb";
        byte[] bytes = data.getBytes();//默认是UTF-8进行编码,编码为字节放进数组中
        System.out.println(Arrays.toString(bytes));//打印数组用·Arrays.toString方法
        byte[] bytes1 = data.getBytes("GBK");//指定字符集进行编码
        System.out.println(Arrays.toString(bytes1));//打印数组

        //解码
        String s = new String(bytes);//默认使用平台默认编码utf-8进行解码
        System.out.println(s);
        String s1 = new String(bytes1);//使用GBK编码的用utf-8进行解码就会出问题
        System.out.println(s1);
        String s2 = new String(bytes1, "GBK");//指定解码字符集
        System.out.println(s2);

    }
}

博客内容均系原创,未经允许严禁转载!
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇