我在多个子文件夹的.txt文件中有很多任务。我试图从这些文件夹,它们包含的文件以及文件中的最后一行中随机选择总共10个任务。所选行应删除或标记,以便在下一次执行中不会被选中。这可能是一个过于广泛的问题,但我希望您能提出任何建议或指导。
这是我到目前为止的代码:
#!/usr/bin/python
import random
with open('C:\\Tasks\\file.txt') as f:
lines = random.sample(f.readlines(),10)
print(lines)
为了在所有这些文件上获得适当的随机分布,您需要将它们视为一大行,并随机选择10条。换句话说,您必须至少读取一次所有这些文件,以至少弄清楚 您有多少行 。
但是,您不需要将所有行都保留在内存中。您必须分两个阶段执行此操作:为文件建立索引以计算每个文件中的行数,然后从这些文件中选择10条随机行。
第一次索引:
import os
root_path = r'C:\Tasks\\'
total_lines = 0
file_indices = dict()
# Based on https://stackoverflow.com/q/845058, bufcount function
def linecount(filename, buf_size=1024*1024):
with open(filename) as f:
return sum(buf.count('\n') for buf in iter(lambda: f.read(buf_size), ''))
for dirpath, dirnames, filenames in os.walk(root_path):
for filename in filenames:
if not filename.endswith('.txt'):
continue
path = os.path.join(dirpath, filename)
file_indices[total_lines] = path
total_lines += linecount(path)
offsets = list(file_indices.keys())
offsets.sort()
现在我们有了一个偏移量映射,指向文件名和总行数。现在我们选择十个随机索引,并从您的文件中读取这些索引:
import random
import bisect
tasks = list(range(total_lines))
task_indices = random.sample(tasks, 10)
for index in task_indices:
# find the closest file index
file_index = offsets[bisect.bisect(offsets, index) - 1]
path = file_indices[file_index]
curr_line = file_index
with open(path) as f:
while curr_line <= index:
task = f.readline()
curr_line += 1
print(task)
tasks.remove(index)
注意,只需要索引一次。您可以将结果存储在某处,并且仅在文件更新时才对其进行更新。
还要注意,您的任务现在已“存储”在tasks
列表中。这些是文件中各行的索引,在打印所选任务时,将从该变量中删除索引。下次运行random.sample()
选项时,以前选择的任务将不再可用于下次选择。如果文件确实发生更改,则此结构将需要更新,因为必须重新计算索引。该file_indices
会帮助你完成这项任务,但超出这个答案的范围。:-)
如果您只需要 一个
10个项目的样本,请改用Blckknght的解决方案,因为该解决方案只处理一次文件,而我的则需要额外打开10个文件。如果需要_多个_ 样本,则每次需要样本时,此解决方案仅需要额外打开10个文件,就不会再次扫描所有文件。如果文件少于10个,请仍然使用Blckknght的答案。:-)
这个问题是本文的后续内容:Python-根据子文件夹和文件名重命名子文件夹中的文件。 我正在尝试遍历中子文件夹中的文件,并以指定的方式重命名每个文件。以下是我目前掌握的代码: 当我运行该行时,,它正确地显示保存在中的名为的文件将被重命名为。 但是,os.rename命令返回以下错误: "必须是字符串,而不是列表。" 这似乎是由于我在os.rename命令中使用了“文件名”。据我所知,os.rena
本文向大家介绍php从文件夹随机读取文件的方法,包括了php从文件夹随机读取文件的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php从文件夹随机读取文件的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的php程序设计有所帮助。
问题内容: 我尝试解压缩150个zip文件。所有zip文件都使用不同的名称,它们都分散在一个大文件夹中,该文件夹分为许多子文件夹和子子文件夹。我想将每个存档提取到与原始zip文件名相同名称的单独文件夹中,与原始zip文件位于同一位置。我的代码是: 我运行代码后,什么都没有发生。在此先感谢您的任何帮助。 问题答案: 更新: 最后,这段代码对我有用:
问题内容: 我想浏览当前文件夹及其所有子文件夹,并获取所有扩展名为.htm | .html的文件。我发现可以找到一个对象是目录还是文件,如下所示: 最后,我想将所有文件及其路径放在一个数组中。这样有可能吗? 问题答案: 您可以用来递归遍历目录及其所有子目录: 要构建这些名称的列表,可以使用列表理解:
我试图做一个Python代码,遍历父文件夹中的所有子文件夹,并将子文件夹内容移动到父文件夹。我在python中使用os.walk函数,但它也一直选择父文件夹中的文件。有没有办法解决这个问题...
我正在寻找一种方法来获取zip文件中的文件列表。我创建了一个方法来获取目录中的文件列表,但我也在寻找一种方法来获取zip文件中的文件,而不是只显示zip文件。 以下是我的方法: