当前位置: 首页 > 知识库问答 >
问题:

Python:如何使用“Python”引擎跳过错误的行

洪开诚
2023-03-14

我正在解析一个Apache日志文件,并将其保存到熊猫数据帧中,以供进一步调查。

但在日志文件中,我有一些错误行,因此发生以下错误:

ValueError:第4320行中应包含11个字段,saw 27

为了克服这个问题,我在读取文件时加入了error\u bad\u lines=False。这没有帮助,因为我遇到以下错误:

ValueError:“python”引擎不支持“error\u bad\u line”选项

注意:我显式地使用了python引擎,因为我将分隔符作为正则表达式。

代码段:

data = pd.read_csv(
    log_file, 
    sep=r'\s(?=(?:[^"]*"[^"]*")*[^"]*$)(?![^\[]*\])', 
    engine='python', 
    na_values='-',
    header=None,
    usecols = use_cols,
    skiprows =1,
    converters={time_taken_index[0]:parse_sec, time_index[0]:parse_datetime, req_index[0]:parse_str,status_index[0]:parse_str},
    error_bad_lines = False
    )

如有任何建议,我将不胜感激。谢谢你。

共有1个答案

农飞尘
2023-03-14

看来你用的是旧版本的熊猫(

参数error\u bad\u lines=False将在0.20中与python引擎一起工作。0 .

所以,只需更新熊猫库。

 类似资料:
  • 问题内容: 我有以下JSON字符串来自外部输入源: 这是格式错误的JSON字符串(“ id”和“ value”必须用引号引起来),但无论如何我都需要对其进行解析。我已经尝试了simplejson和json- py,但似乎无法将其设置为解析此类字符串。 我正在Google App引擎上运行Python 2.5,因此任何基于C的解决方案(例如python-cjson)都不适用。 除了上面列出的JSON

  • 使用ptyhon的selenium来抓取目标站时,发现网站使用了cloudflare,用平常的手段均无法跳过,都会被屏蔽掉。

  • 问题内容: 我试图使用以下命令从Java 6应用程序调用Jython : 这导致NullPointerException: 有人知道我在做什么错吗? 编辑: 感谢您的回复!我将jython.jar添加到类路径中,并且可以正常运行: 问题答案: 您必须先注册您的引擎。 来自:ScriptEngineManager.getEngineByName: […]首先搜索已注册为句柄的ScriptEngine

  • 我正试图从我的网站下载一个HTTPS页面,该页面由SNI托管在谷歌应用程序引擎上。无论我使用什么库,都会出现以下错误: 我尝试了多种方法来解决此错误,包括使用urllib3 openssl monkeypatch: 但是我总是得到上面提到的同样的错误。 有什么想法吗?

  • 下面的代码做了我需要它做的事情,除非它遇到一个缺少class_name的产品,比如说product-price。我需要帮助的是如何跳过那个特定的项目,转移到下一个项目。目前我得到以下错误: Traceback(最近调用最后):文件“/users/user/pycharmprojects/test/homedepotdishwashers.py”,第31行,打印(model.text,price.t

  • 问题内容: 这是我的代码,我能够打印每行,但是当出现空白行时,它会打印;由于CSV文件格式,因此当空白行出现时我想跳过 问题答案: 如果要跳过所有空格行,则应使用以下测试:。 由于您可能需要做的事情不只是将非空白行打印到控制台上(不需要使用CSV模块),因此这里是一个涉及DictReader的示例: