当前位置: 首页 > 面试题库 >

在Go中读取非UTF-8文本文件

壤驷凯
2023-03-14
问题内容

我需要阅读一个以GBK编码的文本文件。Go编程语言中的标准库假定所有文本均以UTF-8编码。

如何读取其他编码的文件?


问题答案:

以前(如在较早的答案中所述),“简单”的方法是使用需要cgo并包装iconv库的第三方程序包。由于许多原因,这是不希望的。值得庆幸的是,有一段时间以来,仅使用Go
Authors提供的软件包(不是在主要软件包中,而是在Go子存储库中),就有了一种上乘的Go语言方法。

golang.org/x/text/encoding软件包定义了一个通用字符编码的接口,该接口可以与UTF-8进行相互转换。该golang.org/x/text/encoding/simplifiedchinese子程序包提供GB18030,GBK和HZ-
GB2312
编码实现。

这是读取和写入GBK编码文件的示例。请注意,在读取/写入数据时,“ io.Readerio.Writer”进行“即时”编码。

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

// Encoding to use. Since this implements the encoding.Encoding
// interface from golang.org/x/text/encoding you can trivially
// change this out for any of the other implemented encoders,
// e.g. `traditionalchinese.Big5`, `charmap.Windows1252`,
// `korean.EUCKR`, etc.
var enc = simplifiedchinese.GBK

func main() {
    const filename = "example_GBK_file"
    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    // Read UTF-8 from a GBK encoded file.
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }
    r := transform.NewReader(f, enc.NewDecoder())

    // Read converted UTF-8 from `r` as needed.
    // As an example we'll read line-by-line showing what was read:
    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Bytes())
    }
    if err = sc.Err(); err != nil {
        log.Fatal(err)
    }

    if err = f.Close(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    // Write UTF-8 to a GBK encoded file.
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }
    w := transform.NewWriter(f, enc.NewEncoder())

    // Write UTF-8 to `w` as desired.
    // As an example we'll write some text from the Wikipedia
    // GBK page that includes Chinese.
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }

    if err = f.Close(); err != nil {
        log.Fatal(err)
    }
}

Playground



 类似资料:
  • 任何帮助都很感激..谢谢..!!!

  • 正常的ASCII是正确的,但韩语字符不是。 所以我做了一个简单的程序来读取一个UTF-8文本文件并打印内容。 输出表示,字符在字符串、文字和文件中的编码是不同的。

  • 问题内容: 如何在go程序中读取xz文件?当我尝试使用阅读它们时,出现错误。 问题答案: 您有3个选择。 尝试另一个库,也许是使用cgo的库。我在这里看到两个。 直接使用cgo /创建自己的lib。 使用xz可执行文件。 选项三比听起来容易。这是我会用的: 此处可运行的代码:http : //play.golang.org/p/SrgZiKdv9a

  • 问题内容: 我一直试图从R中获取MySQL数据库中的UTF-8文本。我正在OS X上运行R(通过GUI和命令行进行尝试),其中默认语言环境为en_US.UTF-8,并且没有无论我尝试什么,查询结果都会显示“?” 用于所有非ASCII字符。 我尝试了设置,通过ODBC连接时,在获取结果后进行设置,以及每个设置的’utf8’变体,都无济于事。从命令行mysql客户端运行查询可以正确显示结果。 我完全迷

  • 问题内容: 为什么sql数据库使用UTF-8编码?他们都使用8位来存储字符吗? 问题答案: UTF-8用于支持大范围的字符。在UTF-8中,最多可以使用4个字节来表示单个字符。 乔尔(Joel)撰写了一篇有关该主题的文章,您可能希望参考 每个软件开发人员绝对,肯定必须了解的Unicode和字符集的绝对最低要求(无借口!)

  • 问题内容: 我在从文件读取,处理其字符串并将其保存到UTF-8文件时遇到问题。 这是代码: 然后,我对可变文本进行一些处理。 接着 这样可以完美地输出文件,但是根据我的编辑器,它在iso 8859-15中可以输出。由于相同的编辑器将输入文件(在变量文件名中)识别为UTF-8,所以我不知道为什么会这样。据我的研究表明,注释行应该可以解决问题。但是,当我使用这些行时,产生的文件主要具有特殊字符的乱码,