问题：

按模式划分的雪花子串

扈阳辉

2023-03-14

  accountNumber:123456
 {"accountNumber":"123456"}

我需要一个动态的方式只提取123456从这些字符串。你能提出一个解决办法吗。

共有1个答案

吉和同

2023-03-14

使用regexp_substr(…)内置函数使用正则表达式模式提取子字符串。

如果每个列值中只有一个数字，那么数字模式或数字字符范围语法就足够了：

SELECT
'accountNumber:123456' i1,
regexp_substr(i1, '[0-9]+') r1,
'{"accountNumber":"123456"}' i2,
regexp_substr(i2, '[0-9]+') r2;

+----------------------+--------+----------------------------+--------+         
| I1                   | R1     | I2                         | R2     |
|----------------------+--------+----------------------------+--------|
| accountNumber:123456 | 123456 | {"accountNumber":"123456"} | 123456 |
+----------------------+--------+----------------------------+--------+

如果数字正好是6位数宽，请使用{n}重复语法：

select
'accountNumber:123456,anotherNumber:123' i1,
regexp_substr(i1, '[0-9]{6}') r1,
'{"accountNumber":"123456", "anotherNumber": 123}' i2,
regexp_substr(i2,'[0-9]{6}') r2;

+----------------------------------------+--------+--------------------------------------------------+--------+
| I1                                     | R1     | I2                                               | R2     |
|----------------------------------------+--------+--------------------------------------------------+--------|
| accountNumber:123456,anotherNumber:123 | 123456 | {"accountNumber":"123456", "anotherNumber": 123} | 123456 |
+----------------------------------------+--------+--------------------------------------------------+--------+

select
'accountNumber:123456,anotherNumber:123,somethingElse:456789' i1,
regexp_substr(i1, 'accountNumber[:" ]+([0-9]{6})', 1, 1, 'e', 1) r1,
'{"accountNumber":"123456", "anotherNumber": 123, "somethingElse": 456789}' i2,
regexp_substr(i2, 'accountNumber[:" ]+([0-9]{6})', 1, 1, 'e', 1) r2;

+-------------------------------------------------------------+--------+---------------------------------------------------------------------------+--------+
| I1                                                          | R1     | I2                                                                        | R2     |
|-------------------------------------------------------------+--------+---------------------------------------------------------------------------+--------|
| accountNumber:123456,anotherNumber:123,somethingElse:456789 | 123456 | {"accountNumber":"123456", "anotherNumber": 123, "somethingElse": 456789} | 123456 |
+-------------------------------------------------------------+--------+---------------------------------------------------------------------------+--------+

select
parse_json('{"accountNumber":"123456", "anotherNumber": 123, "somethingElse": 456789}'):accountNumber::integer account_number;

+----------------+                                                              
| ACCOUNT_NUMBER |
|----------------|
|         123456 |
+----------------+

类似资料：

雪花在拼花地板上不是按柱分割的

关于雪花的新功能--推断模式表函数，我有一个问题。INFER模式函数在parquet文件上执行得很好，并返回正确的数据类型。但是，当parquet文件被分区并存储在S3中时，INFER模式的功能与pyspark Dataframes不同。在DataFrames中，分区文件夹名称和值作为最后一列读取；在雪花推断模式中有没有一种方法可以达到同样的结果？示例：示例：{“AGMT_GID”：1714
分布式Id 雪花算法原理

分布式ID常见生成策略分布式ID生成策略常见的有如下几种：数据库自增ID。 UUID生成。 Redis的原子自增方式。数据库水平拆分，设置初始值和相同的自增步长。批量申请自增ID。雪花算法。百度UidGenerator算法(基于雪花算法实现自定义时间戳)。美团Leaf算法(依赖于数据库，ZK)。其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 id。在分布
表格格式的雪花输出

当我在snowflake中查询外部表（指向CSV文件）时，结果以JSON格式显示。我如何检索我的结果在表格格式，而不使用任何这样的sql下面。我想做，我希望它以显示格式显示。有什么想法吗？谢了。
雪花枢轴
雪花-TABLE命令

我正在搜索TABLE命令的官方文档（它与TABLE( ))不同。我搜索了所有命令/查询语法，但没有太多成功。
Seata 基于改良版雪花算法的分布式UUID生成器分析

Seata内置了一个分布式UUID生成器，用于辅助生成全局事务ID和分支事务ID。我们希望该生成器具有如下特点：高性能全局唯一趋势递增高性能不必多言。全局唯一很重要，否则不同的全局事务/分支事务会混淆在一起。此外，趋势递增对于使用数据库作为TC集群的存储工具的用户而言，能降低数据页分裂的频率，从而减少数据库的IO压力 (branch_table表以分支事务ID作为主键)。在老版Seat

按模式划分的雪花子串

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档