问题：

如何获取Spark Sql查询执行计划的DAG？

颜黎昕

2023-03-14

我正在对spark sql查询执行计划进行一些分析。explain（）api打印的执行计划可读性不强。如果我们看到spark web UI，就会创建一个DAG图，该图分为作业、阶段和任务，可读性更高。是否有任何方法可以从执行计划或代码中的任何API创建该图？如果没有，是否有任何API可以从UI读取该grap？

共有1个答案

禄俊逸

2023-03-14

据我所知，这个项目（https://github.com/AbsaOSS/spline-spark-agent）能够解释执行计划并以可读的方式生成它。这个火花作业是读取文件，将其转换为CSV文件，写入本地。

JSON中的示例输出如下所示

{
    "id": "3861a1a7-ca31-4fab-b0f5-6dbcb53387ca",
    "operations": {
        "write": {
            "outputSource": "file:/output.csv",
            "append": false,
            "id": 0,
            "childIds": [
                1
            ],
            "params": {
                "path": "output.csv"
            },
            "extra": {
                "name": "InsertIntoHadoopFsRelationCommand",
                "destinationType": "csv"
            }
        },
        "reads": [
            {
                "inputSources": [
                    "file:/Users/liajiang/Downloads/spark-onboarding-demo-application/src/main/resources/wikidata.csv"
                ],
                "id": 2,
                "schema": [
                    "6742cfd4-d8b6-4827-89f2-4b2f7e060c57",
                    "62c022d9-c506-4e6e-984a-ee0c48f9df11",
                    "26f1d7b5-74a4-459c-87f3-46a3df781400",
                    "6e4063cf-4fd0-465d-a0ee-0e5c53bd52b0",
                    "2e019926-3adf-4ece-8ea7-0e01befd296b"
                ],
                "params": {
                    "inferschema": "true",
                    "header": "true"
                },
                "extra": {
                    "name": "LogicalRelation",
                    "sourceType": "csv"
                }
            }
        ],
        "other": [
            {
                "id": 1,
                "childIds": [
                    2
                ],
                "params": {
                    "name": "`source`"
                },
                "extra": {
                    "name": "SubqueryAlias"
                }
            }
        ]
    },
    "systemInfo": {
        "name": "spark",
        "version": "2.4.2"
    },
    "agentInfo": {
        "name": "spline",
        "version": "0.5.5"
    },
    "extraInfo": {
        "appName": "spark-spline-demo-application",
        "dataTypes": [
            {
                "_typeHint": "dt.Simple",
                "id": "f0dede5e-8fe1-4c22-ab24-98f7f44a9a5a",
                "name": "timestamp",
                "nullable": true
            },
            {
                "_typeHint": "dt.Simple",
                "id": "dbe1d206-3d87-442c-837d-dfa47c88b9c1",
                "name": "string",
                "nullable": true
            },
            {
                "_typeHint": "dt.Simple",
                "id": "0d786d1e-030b-4997-b005-b4603aa247d7",
                "name": "integer",
                "nullable": true
            }
        ],
        "attributes": [
            {
                "id": "6742cfd4-d8b6-4827-89f2-4b2f7e060c57",
                "name": "date",
                "dataTypeId": "f0dede5e-8fe1-4c22-ab24-98f7f44a9a5a"
            },
            {
                "id": "62c022d9-c506-4e6e-984a-ee0c48f9df11",
                "name": "domain_code",
                "dataTypeId": "dbe1d206-3d87-442c-837d-dfa47c88b9c1"
            },
            {
                "id": "26f1d7b5-74a4-459c-87f3-46a3df781400",
                "name": "page_title",
                "dataTypeId": "dbe1d206-3d87-442c-837d-dfa47c88b9c1"
            },
            {
                "id": "6e4063cf-4fd0-465d-a0ee-0e5c53bd52b0",
                "name": "count_views",
                "dataTypeId": "0d786d1e-030b-4997-b005-b4603aa247d7"
            },
            {
                "id": "2e019926-3adf-4ece-8ea7-0e01befd296b",
                "name": "total_response_size",
                "dataTypeId": "0d786d1e-030b-4997-b005-b4603aa247d7"
            }
        ]
    }
}

类似资料：

MySql中如何使用 explain 查询 SQL 的执行计划

本文向大家介绍MySql中如何使用 explain 查询 SQL 的执行计划，包括了MySql中如何使用 explain 查询 SQL 的执行计划的使用技巧和注意事项，需要的朋友参考一下 explain命令是查看查询优化器如何决定执行查询的主要方法。这个功能有局限性，并不总会说出真相，但它的输出是可以获取的最好信息，值得花时间去了解，因为可以学习到查询是如何执行的。 1、什么是MySQL执行计划
相同的查询-不同的执行计划

问题内容： SQL2008。我有一个测试表：我用10k测试行填充它。我运行以下两个查询：我不知道为什么这两个查询有不同的执行计划。查询1确实针对UQ_Sale_RowVersion索引进行索引搜索。查询2对PK_Sale进行索引扫描。我想查询2做索引查找。我将不胜感激。谢谢你。 [编辑] 尝试使用datetime2而不是rowversion。同样的问题。我也尝试强制使用索引（查
JDBC Oracle-获取解释查询计划

问题内容：我想知道如何使用Java获取解释计划。我之所以需要它，是因为我们有一个特殊用户可以编写报告的框架。这些报告有时会生成大量查询，我们想在其中动态解释并存储其成本。这样，我们可以稍后分析高成本查询并进行优化。给我非法列异常的示例代码：问题答案：用这个：
如何将查询计划信息从Postgres获取到JDBC

问题内容：我想从“解释”查询时所获得的查询计划中获取成本编号。有什么方法可以在Java ResultSet（或类似对象）中获取此数据吗？问题答案：当然，只需将其作为常规语句运行即可：
simple sparksql联接查询上丢失的执行器

我正在运行一个简单的sparkSQL查询，它在2个数据集上进行匹配每个数据集大约500GB。所以整个数据大约是1TB。作业工作良好，直到数据加载（分配了10K任务）。在行分配了200个任务。失败的地方！我知道我不是在缓存一个巨大的数据，它只是一个数字，为什么它会在这里失败。以下是错误详细信息：
执行JPA查询时获取NoSuchMethodError：javax.persistence.Table.indexes（）

问题内容：我有一个带有库的IntelliJ项目：Hibernate-entitymanager 4.3.4和JPA 2.0-2.0。使用postgresql-9.3.1100.jdbc4连接到数据库。如何解决？ jpa-ql>从ItemEntity中选择ItemEntity.name；问题答案：只需阅读文档： http://docs.oracle.com/javaee/7/api/javax

如何获取Spark Sql查询执行计划的DAG？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档