将嵌套XML数据与数据库表结构进行匹配的最快方法

云瑞

2023-03-14

问题内容：

我有一个创建datarequests会非常复杂的应用程序。这些需要作为表存储在数据库中。datarequest（作为XML）的轮廓将是…

<datarequest>
  <datatask view="vw_ContractData" db="reporting" index="1">
    <datefilter modifier="w0">
      <filter index="1" datatype="d" column="Contract Date" param1="2009-10-19 12:00:00" param2="2012-09-27 12:00:00" daterange="" operation="Between" />
    </datefilter>
    <filters>
      <alternation index="1">
        <filter index="1" datatype="t" column="Department" param1="Stock" param2="" operation="Equals" />
      </alternation>
      <alternation index="2">
        <filter index="1" datatype="t" column="Department" param1="HR" param2="" operation="Equals" />
      </alternation>
      </filters>
    <series column="Turnaround" aggregate="avg" split="0" splitfield="" index="1">
      <filters />
    </series>
    <series column="Requested 3" aggregate="avg" split="0" splitfield="" index="2">
      <filters>
        <alternation index="1">
          <filter index="1" datatype="t" column="Worker" param1="Malcom" param2="" operation="Equals" />
        </alternation>          
      </filters>
    </series>
    <series column="Requested 2" aggregate="avg" split="0"  splitfield="" index="3">
      <filters />
    </series>
    <series column="Reqested" aggregate="avg" split="0" splitfield="" index="4">
      <filters />
    </series>
  </datatask>
</datarequest>

这对包含日期范围，主过滤器，系列过滤器和系列过滤器的数据请求进行编码。基本上具有与任何元件index可以在其父元素中出现多次属性-
所述例外是所述filter内datefilter。

但这的结构是一种学术性的，问题是更根本的：

当请求通过时，像这样的XML作为存储的proc的参数发送到SQLServer。此XML切碎成一个反规范化的表，然后写入反复向规范化的表，如tblDataRequest (DataRequestID PK)，tblDataTask，tblFilter，tblSeries。这可以。

当我想 将给定的XML定义与数据库中已保存的一个匹配 时，就会出现问题。我目前是通过…

将XML分解为非规范化表
使用CTE将数据库中的 所有现有数据 提取为相同的非规范化形式
使用巨大WHERE条件进行匹配（长34行）

..这将返回任何与给定XML完全匹配的DataRequestID。我担心这种方法最终会变得非常缓慢，部分原因是我不相信CTE会进行任何聪明的过滤，它会
在应用大数据之前每次提取所有数据WHERE。

我认为必须对此有更好的解决方案，例如

在存储时datarequest，还应以某种方式存储datarequest的哈希，并在此之上进行简单匹配。如果发生碰撞，请使用当前方法。但是我想使用set-logic来做到这一点。而且，我担心更改哈希的XML中无关紧要的小差异-虚假空间等。
以某种方式从下而上迭代地执行匹配。例如，产生一个与最低级别匹配的过滤器列表。将其用作IN匹配系列的一部分。使用它作为IN匹配DataTasks等的一部分。问题是，当我考虑太长时间时，我开始停电。

基本上-有没有人曾经遇到过此类问题（他们必须有）。推荐的解决方法是什么？示例（伪）代码将是巨大的:)

问题答案：

为了消除微小差异的可能性，我将通过XML转换（XSLT）运行请求。

另外，由于您已经有了将其解析为非规范化登台表的代码，所以也可以。然后，我将简单地使用FOR
XML
创建一个新的XML文档。

您的目标是创建一个标准化的XML文档，该文档在适当的情况下尊重排序，并在不存在的情况下消除不一致之处。

完成后，将其存储在新表中。现在，您可以将“标准化”请求XML与现有数据进行直接比较。

要进行实际的比较，您可以使用哈希，将XML存储为字符串并进行直接的字符串比较，或进行完整的XML比较，如下所示：http :
//beyondrelational.com/modules/2/blogs/28/帖子/ 10317 / xquery-
lab-36-编写一个tsql函数以比较两个xml值-
part-2.aspx

只要XML不会超过8000bytes，我的首选就是创建一个唯一的字符串（如果您有特殊字符支持，则为VARCHAR（8000）或NVARCHAR（4000））并在该列上创建一个唯一的索引。

将嵌套XML数据与数据库表结构进行匹配的最快方法

相关阅读

相关文章

相关问答

相关工具

相关文档