BigQuery中交叉联接后的行聚合

颜文昌

2023-03-14

问题内容：

假设您在BigQuery中有下表：

A = user1 | 0 0 |
    user2 | 0 3 |
    user3 | 4 0 |

交叉加入后，您可以

dist = |user1  user2  0 0 , 0 3 |  #comma is just showing user val seperation
       |user1  user3  0 0 , 4 0 |
       |user2  user3  0 3 , 4 0 |

如何在BigQuery中执行行聚合，以计算跨行的成对聚合。作为一个典型的用例，您可以计算两个用户之间的欧式距离。我想计算两个用户之间的以下指标：

sum(min(user1_row[i], user2_row[i]) / abs(user1_row[i] - user2_row[i]))

每个用户对所有i的总和。

例如，在Python中，您只需：

for i in np.arange(row_length/2)]):
dist.append([user1, user2, np.sum(min(r1[i], r2[i]) / abs(r1[i] - r2[i]))])

问题答案：

首先，从丑陋的方式开始：您可以将数学简化到查询中。也就是说，变成 for i in ... sum(min(...)/abs(...))对每个字段进行操作的SQL。请注意，MIN和SUM是您不希望使用的聚合函数。而是使用+了SUM和IF(a < b, a, b)进行MIN。ABS(a, b)看起来像IF(a < b, b-a, a-b)。如果您只是在计算欧几里得距离，则可以

SELECT left.user, right.user, 
  SQRT((left.x-right.x)*(left.x-right.x) 
     + (left.y-right.y)*(left.y-right.y) 
     + (left.z-right.z)*(left.z-right.z)) as dist 
FROM (
    SELECT * 
    FROM dataset.table1 AS left 
    CROSS JOIN dataset.table1 AS right)

更好的方法是用户定义函数，并将向量创建为重复值。然后，您可以编写一个DISTANCE()函数，该函数在交叉联接的左侧和右侧的两个数组上执行计算。如果您不在UDF
Beta计划中，但不想加入，请联系google cloud支持。

最后，如果您将架构从更改{user:string, field1:float, field2:float, field3:float,...}为{user:string, fields:[field:float]}

然后，您可以按位置展平字段，并对其进行交叉连接。如：

SELECT
  user,
  field,
  index,
FROM (FLATTEN((
  SELECT  
    user,
    fields.field as field,
    POSITION(fields.field) as index,
  from [dataset1.table1]
), fields))

如果将其另存为视图，则将其命名为“ dataset1.flat_view”

然后，您可以加入：

SELECT left.user as user1, right.user as user2,
       left.field as l, right.field as r,
FROM dataset1.flat_view left
JOIN dataset1.flat_view right 
ON left.index = right.index
WHERE left.user != right.user

这将为您每对用户和每个字段匹配字段各提供一行。您可以将其另存为视图“ dataset1.joined_view”。

最后，您可以进行汇总：

由于您要这样：

sum(min(user1_row[i], user2_row[i]) / abs(user1_row[i] - user2_row[i]))

它看起来像：

SELECT user1, user2, 
    SUM((if (l < r, l, r)) / (if (l > r, l-r, r-l))
FROM [dataset1.joined_view] 
GROUP EACH BY user1, user2

BigQuery中交叉联接后的行聚合

相关阅读

相关文章

相关问答

相关工具

相关文档