python判断文件和字符串编码类型可以用chardet工具包,可以识别大多数的编码类型。但是前几天在读取一个Windows记事本保存的txt文件时,GBK却被识别成了KOI8-R,无解。
然后就自己写了个简单的编码识别方法,代码如下:
coding.py
# 说明:UTF兼容ISO8859-1和ASCII,GB18030兼容GBK,GBK兼容GB2312,GB2312兼容ASCII CODES = ['UTF-8', 'UTF-16', 'GB18030', 'BIG5'] # UTF-8 BOM前缀字节 UTF_8_BOM = b'\xef\xbb\xbf' # 获取文件编码类型 def file_encoding(file_path): """ 获取文件编码类型\n :param file_path: 文件路径\n :return: \n """ with open(file_path, 'rb') as f: return string_encoding(f.read()) # 获取字符编码类型 def string_encoding(b: bytes): """ 获取字符编码类型\n :param b: 字节数据\n :return: \n """ # 遍历编码类型 for code in CODES: try: b.decode(encoding=code) if 'UTF-8' == code and b.startswith(UTF_8_BOM): return 'UTF-8-SIG' return code except Exception: continue return '未知的字符编码类型'
说明:file_encoding方法用于判断文件编码类型,参数为文件路径;string_encoding方法用于判断字符串编码类型,参数为字符串对应的字节数据
使用示例:
import coding file_name = input('请输入待识别文件路径:\n') encoding = coding.file_encoding(file_name) print(encoding)
以上这篇Python判断文件和字符串编码类型的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持小牛知识库。
Python3 实例 以下代码演示了Python字符串的判断: # Filename : test.py # author by : www.runoob.com # 测试实例一 print("测试实例一") str = "runoob.com" print(str.isalnum()) # 判断所有字符都是数字或者字母 print(str.isalpha()) # 判断所有字符都是字母 pr
本文向大家介绍php 判断字符串编码是utf-8 或gb2312实例,包括了php 判断字符串编码是utf-8 或gb2312实例的使用技巧和注意事项,需要的朋友参考一下 php 判断字符串编码是utf-8 或gb2312 第一种方法: 第二种方法: 感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
本文向大家介绍Python判断中文字符串是否相等的实例,包括了Python判断中文字符串是否相等的实例的使用技巧和注意事项,需要的朋友参考一下 Python判断两个相等的中文字符串为false,将两个待比较的字符串都把unicode编码设为‘utf-8'也不能解决问题,具体原因如下: 1.首先查看待比较两个字符串的编码格式 ,使用命令 比较两个字符串的编码结果,如下图所示 一个编码格式为‘UTF-
由来 在文件上传时,有时候我们需要判断文件类型。但是又不能简单的通过扩展名来判断(防止恶意脚本等通过上传到服务器上),于是我们需要在服务端通过读取文件的首部几个二进制位来判断常用的文件类型。 使用 这个工具类使用非常简单,通过调用FileTypeUtil.getType即可判断,这个方法同时提供众多的重载方法,用于读取不同的文件和流。 File file = FileUtil.file("d:/t
对于Java/general中有关此概念的任何好的参考资料,我们将不胜感激。
本文向大家介绍基于Python的文件类型和字符串详解,包括了基于Python的文件类型和字符串详解的使用技巧和注意事项,需要的朋友参考一下 1. Python的文件类型 1. 源代码--直接由Python解析 这里的1.py就是源代码 执行方式和shell脚本类似: chmod +x 后,./1.py Python 1.py 2. 字节代码 Python源码文件经编译后生成的扩展名为pyc的文件