当前位置：首页 > 编程笔记 >

python 读写文件包含多种编码格式的解决方式

燕实

2023-03-14

本文向大家介绍python 读写文件包含多种编码格式的解决方式，包括了python 读写文件包含多种编码格式的解决方式的使用技巧和注意事项，需要的朋友参考一下

今天写一个脚本文件，需要将多个文件中的内容汇总到一个txt文件中，由于多个文件有三种不同的编码方式，读写出现错误，先将解决方法记录如下：

# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np
import pandas as pd
import os
import time
import datetime
import arrow
import chardet
import sys 
reload(sys) 
sys.setdefaultencoding('utf8') 
os.chdir("F:/new_srt")


#get words of srt file
###########################################
def get_word():
 path = "F:/new_srt"
 filelist = os.listdir(path)
 for files in filelist:
  print files
  encoding = chardet.detect(open(files,'r').read())['encoding']
  if encoding == 'utf-8':
   data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'GB2312':
   try:
    data=pd.read_csv(files,encoding="gbk",sep='\r',header=None)
   except UnicodeDecodeError:
    data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'UTF-8-SIG':
   data=pd.read_csv(files,encoding="UTF-8-SIG",sep='\r',header=None)
  else:
   print 'this is an error about %s' % files 

  data_new=pd.DataFrame(np.reshape(data.values, (-1,3)))
  data_new.columns=['index','timecut','content']
  filename = os.path.splitext(files)[0]  #filetype = os.path.splitext(files)[1]
  with open('F:/result.txt', 'a') as file:
   file.write(str(filename)+' ' )
   for item in data_new['content']:
    file.write(item.decode("utf-8") +' ') #s=s.decode("utf-8") 
   file.write('\n')


if __name__ == '__main__':
 get_word()

以上这篇python 读写文件包含多种编码格式的解决方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持小牛知识库。

类似资料：

C语言文件（包括：文件各种读写方式）

文件概述文件是指存储在外部存储器上的数据集合。更准确的来说，文件就是一组相关元素或数据的有序集合，而且每个集合都有一个符号化的指代，称这个符号化的指代为文件名。文件类型根据文件在外部存储器上的组织形式，文件可以分为ASCII文件和二进制文件。 ASCII文件（文本文件）：以字符的方式进行存储，一个字符对应一个ASCII码，而一个ASCII码占用1字节。例如：整数12在内存中占用4个字节；如果
Python 查看文件的编码格式方法

本文向大家介绍Python 查看文件的编码格式方法，包括了Python 查看文件的编码格式方法的使用技巧和注意事项，需要的朋友参考一下在读取中文的情况下，通常会遇到一些编码的问题，但是首先需要了解目前的编码方式是什么，然后再用decode或者encode去编码和解码，下面是使用chardet库来查看编码方式的。打印结果如下： {'encoding': 'GB2312', 'confidence
格式化读写文件

fscanf() 和 fprintf() 函数与前面使用的 scanf() 和 printf() 功能相似，都是格式化读写函数，两者的区别在于 fscanf() 和 fprintf() 的读写对象不是键盘和显示器，而是磁盘文件。这两个函数的原型为： fp 为文件指针，format 为格式控制字符串，... 表示参数列表。与 scanf() 和 printf() 相比，它们仅仅多了一个 fp 参
解决python3 json数据包含中文的读写问题

本文向大家介绍解决python3 json数据包含中文的读写问题，包括了解决python3 json数据包含中文的读写问题的使用技巧和注意事项，需要的朋友参考一下 python3 默认的是UTF-8格式，但在在用dump写入的时候仍然要注意：如下在打开文件的时候要加上encoding=‘utf-8'，不然会显示成乱码，如下：在dump的时候也加上ensure_ascii=False,不然会变成
python+tifffile之tiff文件读写方式

本文向大家介绍python+tifffile之tiff文件读写方式，包括了python+tifffile之tiff文件读写方式的使用技巧和注意事项，需要的朋友参考一下背景使用python操作一批同样分辨率的图片，合并为tiff格式的文件。由于opencv主要用于读取单帧的tiff文件，对多帧的文件支持并不好。通过搜索发现了两个比较有用的包：TiffCapture和tifffile。两者都可
Python Pandas-读取包含多个表的csv文件

我有一个文件。使用Pandas，从这个文件中获得两个DataFrame和的最佳策略是什么？输入如下所示：到目前为止，我想到的最好的方法是转换这个文件转换为Excel工作簿（），将表格拆分为工作表并使用：然而：这种方法需要模块。这些日志文件必须被实时分析，这样就可以更好地找到一种方法来分析它们，因为它们来自日志。真正的日志比那两个有更多的表。

相关阅读

Python批量转换文件编码格式 Python中使用不同编码读写txt文件详解 Python中json格式数据的编码与解码方法详解详解Python文件修改的两种方式 Python读写文件模式和文件对象方法实例详解

相关文章

yml文件读取方式-2 yml文件读取方式-1 Struts2 include(包含)多个配置文件 C++文本文件读写操作详解 C#文件读写

相关问答

以可读格式将json.dumps写入Python3[duplicate]中的文件用Python解析包含AWS Lambda图像的Base64编码数据包含unicode的java文件不编译包含允许Oracle PL/sql的多行回滚语句的liquibase格式化sql文件编写这段代码的更好的方式？

相关工具

九宫格方式输入密码 ini格式解析三种方式显示GIF图片标准TVL格式数据解析解压TexturePacker生成的文件

相关文档

Ruby 源码解读各种算法的 Python 实现方案如何编写 jQuery 插件 C 语言编码风格和标准 Python 中文官方文档 v2.7