问题：

将多个.txt文件转换为单个.csv文件（python）

龙俊德

2023-03-14

在这里你可以看到我正在处理的一些文件。

与我最相似的问题是这个问题（将一个文本文件文件夹合并到一个CSV中，每个内容都在一个单元格中），但我无法实现那里提出的任何解决方案。

我尝试的最后一个是Nathaniel Verhaaren在前面提到的问题中提出的Python代码，但我得到了与问题作者完全相同的错误（即使在实施了一些建议之后）：

import os
import csv

dirpath = 'path_of_directory'
output = 'output_file.csv'
with open(output, 'w') as outfile:
    csvout = csv.writer(outfile)
    csvout.writerow(['FileName', 'Content'])

    files = os.listdir(dirpath)

    for filename in files:
        with open(dirpath + '/' + filename) as afile:
            csvout.writerow([filename, afile.read()])
            afile.close()

    outfile.close()

与我类似的其他问题（例如，Python：将多个。txt文件解析为一个。csv文件？、将多个。txt文件合并为一个csv文件以及将1000个文本文件转换为一个csv文件）并不能解决我提出的问题（而且我不能根据我的情况调整提出的解决方案）。

共有1个答案

尹超

2023-03-14

我也有类似的要求，所以我写了下面的类

import os
import pathlib
import glob
import csv
from collections import defaultdict

class FileCsvExport:
    """Generate a CSV file containing the name and contents of all files found"""
    def __init__(self, directory: str, output: str, header = None, file_mask = None, walk_sub_dirs = True, remove_file_extension = True):
        self.directory = directory
        self.output = output
        self.header = header
        self.pattern = '**/*' if walk_sub_dirs else '*'
        if isinstance(file_mask, str):
            self.pattern = self.pattern + file_mask
        self.remove_file_extension = remove_file_extension
        self.rows = 0

    def export(self) -> bool:
        """Return True if the CSV was created"""
        return self.__make(self.__generate_dict())

    def __generate_dict(self) -> defaultdict:
        """Finds all files recursively based on the specified parameters and returns a defaultdict"""
        csv_data = defaultdict(list)
        for file_path in glob.glob(os.path.join(self.directory, self.pattern),  recursive = True):
            path = pathlib.Path(file_path)
            if not path.is_file():
                continue
            content = self.__get_content(path)
            name = path.stem if self.remove_file_extension else path.name
            csv_data[name].append(content)
        return csv_data

    @staticmethod
    def __get_content(file_path: str) -> str:
        with open(file_path) as file_object:
            return file_object.read()

    def __make(self, csv_data: defaultdict) -> bool:
        """
        Takes a defaultdict of {k, [v]} where k is the file name and v is a list of file contents.
        Writes out these values to a CSV and returns True when complete.
        """
        with open(self.output, 'w', newline = '') as csv_file:
            writer = csv.writer(csv_file, quoting = csv.QUOTE_ALL)
            if isinstance(self.header, list):
                writer.writerow(self.header)
            for key, values in csv_data.items():
                for duplicate in values:
                    writer.writerow([key, duplicate])
                    self.rows = self.rows + 1
        return True

可以像这样使用

...
myFiles = r'path/to/files/'
outputFile = r'path/to/output.csv'

exporter = FileCsvExport(directory = myFiles, output = outputFile, header = ['File Name', 'Content'], file_mask = '.txt')
if exporter.export():
    print(f"Export complete. Total rows: {exporter.rows}.")

在我的示例目录中，返回

"File Name","Content"
"Test1","This is from Test1"
"Test2","This is from Test2"
"Test3","This is from Test3"
"Test4","This is from Test4"
"Test5","This is from Test5"
"Test5","This is in a sub-directory"

null

类似资料：

将多个制表符分隔的.txt文件转换为多个.xls文件

问题内容：我是python的新手，我正在尝试使用下面显示的代码来执行上面的标题所说的。它一直运行到我要求保存xls输出的位置。任何帮助将不胜感激。 [编辑]此代码有效。问题答案：我相信，您需要为输出电子表格设置编码。您需要知道该文件正在使用什么编码。csv模块不直接支持unicode，但它仅适用于大多数西方语言。在不知道文本文件的编码是什么的情况下，您有两个选择。选项1是根据python使
将多个CSV文件转换为UTF-8编码

我需要将多个CSV文件（使用不同的编码）转换为UTF-8。这是我的代码：当我尝试运行此代码时，我得到以下错误： UnicodeDecodeError：'utf-8'编解码器无法解码位置5057的字节0xf3：无效的延续字节有人能帮我吗？谢谢
如何将.txt / .csv文件转换为ORC格式

问题内容：对于某些要求，我想将文本文件（定界）转换为 ORC（优化行列）格式。由于必须定期运行它，因此我想编写一个 Java程序来执行此操作。我不想使用Hive临时表解决方法。有人可以帮我吗？以下是我尝试过的运行此命令将显示以下错误，并在本地生成一个名为 part-00000 的文件问题答案：您可以使用Spark数据帧非常轻松地将定界文件转换为orc格式。您还可以指定/施加模式并过
如何将一个文本文件拆分为多个* .txt文件？

问题内容：我得到一个包含以下内容的文本文件（12 MB）：有什么办法来分流到12个* .txt文件让说，，（......）？问题答案：您可以使用linux bash核心实用程序注意，或两者都OK，但大小不同。MB为1000 * 1000，M为1024 ^ 2 如果要按行分隔，可以使用参数。更新 Kirill建议的另一种解决方案，您可以执行以下操作请注意，是不是，有几个选项，比如，，，
使用Python将制表符分隔的txt文件转换为csv文件

问题内容：所以我想将一个简单的制表符分隔的文本文件转换为一个csv文件。如果我使用string.split（’\ n’）将txt文件转换为字符串，则会得到一个列表，其中每个列表项都是字符串，每列之间带有’\ t’。我当时以为我可以用逗号替换’\ t’，但它不会像清单中的字符串一样对待字符串，并允许我使用string.replace。这是我的代码的开始，仍然需要解析选项卡“ \ t”的方法。问题
如何将pdf文件转换为CSV文件？

问题内容：我想将PDF文件转换为CSV文件。我为此使用iText库。程序运行正常，但输出格式不正确。所有数据都在csv文件的第一行中。输出应与pdf文件完全相同（表示带有换行符）。请帮忙。提前致谢。问题答案：您需要在每个表行之后在缓冲区中引入一个换行符’\ n’。

将多个.txt文件转换为单个.csv文件（python）

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档