当前位置: 首页 > 工具软件 > GDK > 使用案例 >

golang中GDK和UTF8编码转换

朱宇航
2023-12-01
官方提供的GDK转换方式:
import (
	"bytes"
	"fmt"
	"golang.org/x/text/encoding/simplifiedchinese"
	"golang.org/x/text/transform"
	"io/ioutil"
)

func main() {
	content := "编码转换内容内容"
	gdkData, _ := ioutil.ReadAll(transform.NewReader(bytes.NewReader([]byte(content)), simplifiedchinese.GBK.NewEncoder()))         //转成GDK编码格式
	utfData, _ := ioutil.ReadAll(transform.NewReader(bytes.NewReader([]byte(gdkData)), simplifiedchinese.GBK.NewDecoder())) //转成utf-8编码格式
	fmt.Println(string(gdkData))
	fmt.Println(string(utfData))
}
mahonia包的使用(转GDK编码):

GDK编码转换

import (
	"fmt"
	"github.com/axgle/mahonia"
)

func main() {
	content := "你好世界"
	encodeGdk := mahonia.NewEncoder("GBK")  
	output := encodeGdk.ConvertString(content)
	fmt.Println(output)
}
验证方式:

go判断字符串是否是gbk:

func isGBK(data []byte) bool {
	length := len(data)
	var i int = 0
	for i < length {
		if data[i] <= 0x7f {
			//编码0~127,只有一个字节的编码,兼容ASCII码
			i++
			continue
		} else {
			//大于127的使用双字节编码,落在gbk编码范围内的字符
			if  data[i] >= 0x81 &&
				data[i] <= 0xfe &&
				data[i + 1] >= 0x40 &&
				data[i + 1] <= 0xfe &&
				data[i + 1] != 0xf7 {
				i += 2
				continue
			} else {
				return false
			}
		}
	}
	return true
}

go判断字符串是否是utf-8:

func preNUm(data byte) int {
	var mask byte = 0x80
	var num int = 0
	//8bit中首个0bit前有多少个1bits
	for i:=0; i < 8; i++ {
		if (data & mask) == mask {
			num++
			mask = mask >> 1
		} else {
			break
		}
	}
	return num
}
func isUtf8(data []byte) bool {
	i := 0
	for i < len(data)  {
		if (data[i] & 0x80) == 0x00 {
			// 0XXX_XXXX
			i++
			continue
		} else if num := preNUm(data[i]); num > 2 {
			// 110X_XXXX 10XX_XXXX
			// 1110_XXXX 10XX_XXXX 10XX_XXXX
			// 1111_0XXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
			// 1111_10XX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
			// 1111_110X 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
			// preNUm() 返回首个字节的8个bits中首个0bit前面1bit的个数,该数量也是该字符所使用的字节数
			i++
			for j := 0; j < num - 1; j++ {
				//判断后面的 num - 1 个字节是不是都是10开头
				if (data[i] & 0xc0) != 0x80 {
					return false
				}
				i++
			}
		} else  {
			//其他情况说明不是utf-8
			return false
		}
	}
	return true
}
 类似资料: