问题：

摄取Parquet文件会产生UTF-8错误[Druid 0.12.0]

曾皓

2023-03-14

我有一个AWS胶水生成的拼花地板文件。我已经安装了Parquet和Avro扩展（都用0.12.0和0.12.1进行了尝试），在每种情况下都出现了以下错误

$>curl-x'post'-h'content-type:application/json'-d@quickstart/master.parquet localhost:8090/druid/indexer/v1/task

<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1"/>
<title>Error 500 </title>
</head>
<body>
<h2>HTTP ERROR: 500</h2>
<p>Problem accessing /druid/indexer/v1/task. Reason:
<pre>    javax.servlet.ServletException: com.fasterxml.jackson.core.JsonParseException: Invalid UTF-8 middle byte 0x27
 at [Source: HttpInputOverHTTP@149d71fc[c=8000,q=1,[0]=Content@519fed0b{HeapByteBufferR@67183cce[p=8000,l=8192,c=8192,r=192]={PAR1\x15\x04\x15\xC0\x81\x01\x15\xF4&apos;L\x15\xA0\t...X\xA2\xC7\x1c\xB7\xCc\x81\xC9\x1c\x984\x82I#s&lt;&lt;&lt;42\xC7\x1dt&lt;B\xC7\x1cs\xC0\xE3H\x1fx\xCc\x81...\xE2\x08$\xAa`R\x87#\xB0`RI\x1d\x90\xD4&gt;&gt;&gt;}},s=STREAM]; line: 1, column: 14]</pre></p>
<hr /><a href="http://eclipse.org/jetty">Powered by Jetty:// 9.3.19.v20170502</a><hr/>
</body>
</html>

$>更多快速启动/master.json

{
  "type" : "index_hadoop",
  "spec" : {
    "ioConfig" : {
      "type" : "hadoop",
      "inputSpec" : {
        "type" : "static",
        "inputFormat": "io.druid.data.input.parquet.DruidParquetInputFormat",
        "paths" : "quickstart/master.parquet"
      }
    },
    "dataSchema" : {
      "dataSource" : "master",
      "granularitySpec" : {
        "type" : "uniform",
        "segmentGranularity" : "day",
        "queryGranularity" : "none",
        "intervals" : ["2010-03-01/2020-05-28"]
      },
      "parser" : {
        "type" : "parquet",
        "parseSpec" : {
          "format" : "timeAndDims",
          "dimensionsSpec" : {
            "dimensions" : [
            ]
          },
          "timestampSpec" : {
            "format" : "auto",
            "column" : "ndate"
          }
        }
      },
      "metricsSpec" : [
        {
          "name" : "count",
          "type" : "count"
        },
        {
          "name" : "collection_USD_SUM",
          "type" : "longSum",
          "fieldName" : "collection_USD"
        },
        {
          "name" : "order_count",
          "type" : "hyperUnique",
          "fieldName" : "orderNumber"
        },
        {
          "name" : "lead_count",
          "type" : "count",
          "fieldName" : "Sales.leads"
        }

      ]
    },
    "tuningConfig" : {
      "type" : "hadoop",
      "partitionsSpec" : {
        "type" : "hashed",
        "targetPartitionSize" : 5000000
      },
      "jobProperties" : {}
    }
  }
}

有线索吗？

共有1个答案

虞裕

2023-03-14

1.您应该修改这个命令（将master.parquet更改为master.json):$>curl-x'post'-h'content-type:application/json'-d@quickstart/master.parquet
2。在json配置文件中，“路径”应该是写数据路径

类似资料：

读取编码错误的文件。CP1252与UTF-8

我有字节数组，它放在InputStreamReader中，用它做一些操作。 JVM有默认的cp1252编码，但是我转换成字节数组的文件有utf-8编码。此外，这个文件有德语umlauts。当我把字节数组放在InputStreamReader中时，java会将元音解码为错误的符号。例如，ürepression为。我试着把“utf-8”和charset.forname（“utf-8”）.newdeco
Spring RestController产生charset=UTF-8

自从更新到最新版本的Spring-Boot (1.4.1)以来，我注意到在我的RestControllers中，即使我明确地将产生的媒体类型设置为“application/json ”,它现在也产生“application/JSON；字符集=UTF-8 " 控制器：响应标头现在是否在其他地方配置了此项以覆盖RequestMapping设置？
UTF-8错误请求

我有一个字符串与字符"á"（西班牙语），我有一些问题与API的请求。这样我得到了400错误的坏请求用另一种方式编码，用ISO-8859-1和UTF-8，我没有得到坏请求400错误。这种方式编码UTF8正确吗？这是编码到UTF-8的最佳方式，特别是带重音或带"ñ"的字符串。谢谢
在Go中读取非UTF-8文本文件

问题内容：我需要阅读一个以GBK编码的文本文件。Go编程语言中的标准库假定所有文本均以UTF-8编码。如何读取其他编码的文件？问题答案：以前（如在较早的答案中所述），“简单”的方法是使用需要cgo并包装iconv库的第三方程序包。由于许多原因，这是不希望的。值得庆幸的是，有一段时间以来，仅使用Go Authors提供的软件包（不是在主要软件包中，而是在Go子存储库中），就有了一种上乘的Go
parquet文件

Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。加载数据 // sqlContext from the previous example is used in this example. // createSchemaRDD is used to implicitl
通过AJAX加载文本文件会产生受限的URI错误

问题内容：我提到我阅读了建议的链接…并且无法理解建议。.“使用Greasemonkey修改页面并开始编写一些JavaScript来修改网页我正在使用加载文本文件。在Firefox上运行代码时，出现以下错误：错误：[“拒绝访问受限制的URI”代码：“ 1012” nsresult：“0x805303f4（NS_ERROR_DOM_BAD_URI）”位置：“ <未知>”] 这是我的代码：建议不

摄取Parquet文件会产生UTF-8错误[Druid 0.12.0]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档