在项目中我们常会对数据进行去重处理,有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重
不过Postgresql还有自带去重函数:distinct
1、创建表:user
CREATE TABLE `user` ( `name` varchar(30) DEFAULT NULL, `age` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8; INSERT INTO `user` VALUES ('张三', 20); INSERT INTO `user` VALUES ('李四', 22); INSERT INTO `user` VALUES ('李四', 20); INSERT INTO `user` VALUES ('张三', 22); INSERT INTO `user` VALUES ('张三', 20);
查询结果:
SELECT * FROM user 张三 20 李四 22 李四 20 张三 22 张三 20
2、根据 name 查询去重后的数据:
SELECT distinct name FROM user 张三 李四
3、根据name 和 age 查询去重后的数据:
SELECT distinct name,age FROM user 张三 20 李四 22 李四 20 张三 22
4、根据name,age查询重复数据数:
SELECT distinct name,age,count(*) 数据条数 FROM user GROUP BY name,age 张三 20 2 张三 22 1 李四 20 1 李四 22 1
删除重复数据一般几种方式,一般采用 临时表 或者根据 某个字段,例如id等,通过max或者min函数去重。
补充:基于postgresql ctid实现数据的差异同步
最近在做异构数据同步方面(非实时)的工作,从oracle,gbase,postgresql向mysql数据库中同步,对于没有自增字段(自增ID或时间字段)的业务表,做差异同步是一件非常麻烦的事情,主要体现在记录的新增、更新与删除上
备注:源库只提供一个只读权限的用户
ctid是用来指向自身或新元组的元组标识符,怎么理解呢?下面能过几个实验来测试一下
satdb=# create table test_ctid(id int,name varchar(100)); satdb=# insert into test_ctid values(1,‘a'),(1,‘a'); satdb=# insert into test_ctid values(2,‘a'),(3,‘a');
查看记录的ctid值
satdb=# select id,name,ctid from test_ctid; id | name | ctid ----±-----±------ 1 | a | (0,1) 1 | a | (0,2) 2 | a | (0,3) 3 | a | (0,4) (4 rows)
对id为2的记录进行更新
satdb=# update test_ctid set name=‘b' where id=2; UPDATE 1
这里可以看到id=2的记录指向了新的元组标识符 (0,5)
satdb=# select id,name,ctid from test_ctid; id | name | ctid ----±-----±------ 1 | a | (0,1) 1 | a | (0,2) 3 | a | (0,4) 2 | b | (0,5) (4 rows) satdb=# select * from test_ctid where ctid='(0,1)'; id | name ----±----- 1 | a (1 row)
删除 id=3的记录后,对应的ctid(0,4)不存在了
satdb=# delete from test_ctid where id=3; DELETE 1 satdb=# select *,ctid from test_ctid; id | name | ctid ----±-----±------ 1 | a | (0,1) 1 | a | (0,2) 2 | b | (0,5) (3 rows)
再插入一条记录时,看看会不会使用(0,4)这个标识符
satdb=# insert into test_ctid values(3,‘d'); INSERT 0 1 satdb=# select *,ctid from test_ctid; id | name | ctid ----±-----±------ 1 | a | (0,1) 1 | a | (0,2) 2 | b | (0,5) 3 | d | (0,6)
这里新插入的记录不会使用(0,4),而是直接分配新的标识符(0,6)
1、ctid的作用与oracle rowid类似,可以唯一标识一条记录
2、记录的更新后,后生产新的ctid
3、记录删除后,新插入的记录不会使用已经删除记录的ctid
4、基于ctid可以实现记录的去重操作
5、基于ctid可以实现差异增量同步(新增、删除、更新)
以上为个人经验,希望能给大家一个参考,也希望大家多多支持小牛知识库。如有错误或未考虑完全的地方,望不吝赐教。
本文向大家介绍PostgreSql 的hash_code函数的用法说明,包括了PostgreSql 的hash_code函数的用法说明的使用技巧和注意事项,需要的朋友参考一下 PostgreSql 实现的hash_code 函数与java hash_code方法一致 补充:PGSQL的某些常用函数 一、COALESCE(col,value); COALESCE函数的作用是空值替换函数,即当某列的值
前面小节介绍了如何使用 GROUP BY 对查询数据分组,并且 GROUP BY 能起到有效去重作用,本小节介绍如何使用 DISTINCT 去重。 1. 单字段去重 以表 student_course 和 表 student 链接为例: SELECT * FROM student_course a INNER JOIN student b ON a.student_id=b.id; 查询结果如下
在 PostgreSQL 中,DISTINCT 关键字与 SELECT 语句一起使用,用于去除重复记录,只获取唯一的记录。 我们平时在操作数据时,有可能出现一种情况,在一个表中有多个重复的记录,当提取这样的记录时,DISTINCT 关键字就显得特别有意义,它只获取唯一一次记录,而不是获取重复记录。 语法 用于去除重复记录的 DISTINCT 关键字的基本语法如下: 实例 创建 COMPANY 表(
主要内容:Distinct函数的示例在Spark中,函数返回提供的数据集中的不同元素。 Distinct函数的示例 在此示例中,忽略重复元素并仅检索不同的元素。要在Scala模式下打开Spark,请按照以下命令操作。 使用并行化集合创建RDD。 现在,可以使用以下命令读取生成的结果。 应用函数来忽略重复的元素。 现在,可以使用以下命令读取生成的结果。
本文向大家介绍Mybatis plus实现Distinct去重功能,包括了Mybatis plus实现Distinct去重功能的使用技巧和注意事项,需要的朋友参考一下 不啰嗦,上菜 PS: 顺便一提,指明查询出后的结果输出类型,可以参考如下: distinct去重复查询的使用 查询的结果有时会有重复值,需要去除重复值,在sql查询中使用distinct关键字很方便的达到效果。例如: 对应的实现代码
问题内容: 我正在尝试运行SQL查询以获取四个随机项。由于表中product_filter有多个toupleproduct我必须使用DISTINCTin SELECT,所以出现此错误: 对于SELECT DISTINCT,ORDER BY表达式必须出现在选择列表中 但是,如果我RANDOM()输入了SELECT它,将会避免DISTINCT结果。 有人知道如何DISTINCT与RANDOM()功能一