当前位置: 首页 > 编程笔记 >

Python3读取UTF-8文件及统计文件行数的方法

於宾白
2023-03-14
本文向大家介绍Python3读取UTF-8文件及统计文件行数的方法,包括了Python3读取UTF-8文件及统计文件行数的方法的使用技巧和注意事项,需要的朋友参考一下

本文实例讲述了Python3读取UTF-8文件及统计文件行数的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
Python 读取UTF-8文件 
统计文件的行数目 
@author: liury_lab 
''' 
# -*- coding: utf-8 -*- 
import codecs 
# 对较小的文件,最简单的方法是将文件读入一个行列表中,
# 然后计算列表的长度即可 
count = len(codecs.open('d:/FreakOut.cpp', 'rU', 'utf-8').readlines())
print(count) 
# 对较大的文件,可循环计数 
count = -1 
for count, line in enumerate(codecs.open('d:/FreakOut.cpp', 'rU', 'utf-8')):
  pass 
count += 1 
print(count) 
# 对于像windows结束标记有'\n'的,还可以有如下办法: 
count = 0 
the_file = codecs.open('d:/FreakOut.cpp', 'rb', 'utf-8') 
while (True): 
  buffer = the_file.read(8192*1024) 
  if not buffer: 
    break 
  count += buffer.count('\n') 
count += 1 
the_file.close() 
print(count) 

希望本文所述对大家的Python程序设计有所帮助。

 类似资料:
  • 问题内容: 我需要阅读一个以GBK编码的文本文件。Go编程语言中的标准库假定所有文本均以UTF-8编码。 如何读取其他编码的文件? 问题答案: 以前(如在较早的答案中所述),“简单”的方法是使用需要cgo并包装iconv库的第三方程序包。由于许多原因,这是不希望的。值得庆幸的是,有一段时间以来,仅使用Go Authors提供的软件包(不是在主要软件包中,而是在Go子存储库中),就有了一种上乘的Go

  • 本文向大家介绍Python3实现将文件归档到zip文件及从zip文件中读取数据的方法,包括了Python3实现将文件归档到zip文件及从zip文件中读取数据的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python3实现将文件归档到zip文件及从zip文件中读取数据的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的Python程序设计有所帮助。

  • 我从来没有真正理解编码和解码在python中是如何工作的,我习惯于经常遇到这类问题。我必须读取一个json文件并将其某些值与其他数据进行比较。 在其中一个文件中,我有字符串,它应该成为。我正在这样读取文件: 然而,该字符串被读取为unicode,并表示为 我如何做到这一点,以及如何在python中使用编解码器的正确方法?

  • 本文向大家介绍Python3读取zip文件信息的方法,包括了Python3读取zip文件信息的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python3读取zip文件信息的方法。分享给大家供大家参考。具体实现方法如下: 该程序接受一个字符串,其内容是一个zip文件,需要读取这个zip文件中的信息  希望本文所述对大家的Python3程序设计有所帮助。

  • 我有字节数组,它放在InputStreamReader中,用它做一些操作。 JVM有默认的cp1252编码,但是我转换成字节数组的文件有utf-8编码。此外,这个文件有德语umlauts。当我把字节数组放在InputStreamReader中时,java会将元音解码为错误的符号。例如,ürepression为。我试着把“utf-8”和charset.forname(“utf-8”).newdeco

  • 问题内容: 我在从文件读取,处理其字符串并将其保存到UTF-8文件时遇到问题。 这是代码: 然后,我对可变文本进行一些处理。 接着 这样可以完美地输出文件,但是根据我的编辑器,它在iso 8859-15中可以输出。由于相同的编辑器将输入文件(在变量文件名中)识别为UTF-8,所以我不知道为什么会这样。据我的研究表明,注释行应该可以解决问题。但是,当我使用这些行时,产生的文件主要具有特殊字符的乱码,