问题：

用python逐行创建大型数据集

祁通

2023-03-14

对于我的毕业论文，我需要创建一个扑克动作的数据集来测试模型。我编写了一个函数，该函数读取包含关于手的信息的文本文件，并返回列表，并将其附加到pandas数据帧中。

我有大约1500个文件，每个文件包含1500~3000个需要传递给这个函数的手，所以我的主脚本看起来像这样。

import os
os.chdir("C:/Users/jctda/OneDrive/Documentos/TCC/Programa")

import pandas as pd
from datagen import DataGenerator, EmptyLine
from poker.room.pokerstars import PokerStarsHandHistory
from functions import FindFold, GetFiles, GetShowers
#IMPORT DATAGEN AQUI

database = pd.DataFrame()

files = GetFiles('hand_texts')
for hand_text in files:
    text=open('hand_texts/' + hand_text)
    b=text.read()
    hands=b.split("\n\n\n\n\n")
    text.close()

    for i in range(1,len(hands)):

        try:

            hh = PokerStarsHandHistory(unicode(hands[i]))
            hh.parse()
            fold = FindFold(hh)

            if fold == 'showdown':
                for shower in GetShowers(hh):
                    database = database.append(DataGenerator(hh,shower,hand_text,i))
                    print('Success in parsing iteration ' + str(i) + ' from file' + hand_text)

        except:

            print('PARSER ERROR ON ITERATION [[' + str(i) + ']] FROM FILE [[' + hand_text + ']]')
            database = database.append(EmptyLine(hand_text,i))




database.to_csv('database2.csv')

问题是，运行几个小时后，它变得非常慢。第一个文件大约需要20秒，但它们每次都变慢，在运行8h后，它们开始需要一个多小时。我刚开始为这个项目学习python，所以我可能在某个地方犯了一个大错误，导致它花费了比需要的更多的时间，但我找不到它。

另一件困扰我的事情是，当它在16GB的机器上运行时，它消耗的RAM不到1GB。我想过强迫它使用更多的memmory，但显然python没有memmory限制，所以我想这只是糟糕的代码

有人能帮我想出该怎么办吗？

共有1个答案

艾宏远

2023-03-14

正如这里所描述的，不要在循环中追加到dataframe，因为这是非常无效的。宁可这样做：

files = GetFiles('hand_texts')

database = []
for hand_text in files:
    # as a sidenote, with contexts are helpful for these:
    with open('hand_texts/' + hand_text) as text:
        b=text.read()

    hands=b.split("\n\n\n\n\n")

    for i in range(1,len(hands)):
        try:
            hh = PokerStarsHandHistory(unicode(hands[i]))
            hh.parse()
            fold = FindFold(hh)

            if fold == 'showdown':
                for shower in GetShowers(hh): 
                    database.append(DataGenerator(hh,shower,hand_text,i))
                    print('Success in parsing iteration ' + str(i) + ' from file' + hand_text)

        except:
            print('PARSER ERROR ON ITERATION [[' + str(i) + ']] FROM FILE [[' + hand_text + ']]')
            database.append(EmptyLine(hand_text,i))

pd.DataFrame(database).to_csv('database2.csv'))

类似资料：

创建数据模型

在简单的示例中你可以使用 java.lang 和 java.util 包中的类，还有用户自定义的Java Bean来构建数据对象：使用 java.lang.String 来构建字符串。使用 java.lang.Number 来派生数字类型。使用 java.lang.Boolean 来构建布尔值。使用 java.util.List 或Java数组来构建序列。使用 java.util.Ma
Python熊猫：逐行填充数据帧

向对象似乎很难完成。有3个与此相关的stackoverflow问题，没有一个给出有效的答案。这就是我要做的。我有一个DataFrame，我已经知道它的形状以及行和列的名称。现在，我有了一个迭代计算行值的函数。我如何用字典或？以下是失败的各种尝试：显然，它试图添加一列而不是一行。非常不具信息性的错误消息。显然，这仅用于在数据框中设置单个值。我不想忽略索引，否则结果如下：它确实对齐了列名
使用python创建Postgres数据库

问题内容：我想使用Python创建Postgres数据库。我收到以下错误：我正在使用psycopg2进行连接。我不明白这是什么问题。我想做的是连接到数据库（Postgres）：然后创建另一个数据库：这是我通常要做的，我想通过创建Python脚本来实现此自动化。问题答案：使用psycopg2扩展名ISOLATION_LEVEL_AUTOCOMMIT：发出命令且不需要commit（）或
Python-如何逐行读取大文件

问题内容：我想遍历整个文件的每一行。一种方法是读取整个文件，将其保存到列表中，然后遍历感兴趣的行。此方法占用大量内存，因此我正在寻找替代方法。到目前为止，我的代码：执行此代码将显示错误消息：。有什么建议么？目的是计算成对的字符串相似度，这意味着对于文件中的每一行，我要计算每隔一行的距离。问题答案：正确的，完全Python的读取文件的方法如下：该with语句处理文件的打开和关闭，包括
Python-pandas根据其他列的值创建新列/逐行应用多列的功能

问题内容：我想申请我的自定义函数（它使用的梯）这六个列我的数据帧的每一行中）。我尝试了与其他问题不同的方法，但似乎仍然找不到适合我问题的正确答案。关键在于，如果该人被视为西班牙裔，就不能被视为其他任何人。即使他们在另一个种族栏中的得分为“ 1”，他们仍然被视为西班牙裔，而不是两个或两个以上的种族。同样，如果所有ERI列的总和大于1，则将它们计为两个或多个种族，并且不能计为唯一的种族（西班牙裔除
在大型数据集上创建唯一节点和关系NEO4J

我的问题与此非常相似：如何通过在neo4j中导入的csv文件创建唯一的节点和关系？我有一个大约250万行的textfile，其中有两列，每一列都是节点ID：每一行表示一个关系（即250万个关系）:first_column nodeid->follows->second_column nodeid。这个文件中大约有80,000个唯一节点。 null 我的主要问题是我想知道如何使这个过程更快。这是在

用python逐行创建大型数据集

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档