MySQL 处理重复数据的方法

帮
助
中
心

网站公告

新闻动态

域名注册

虚拟主机

企业邮箱

数据库

云服务器

备案指南

mysql数据库问题

首页 » 帮助中心 » 数据库 » mysql数据库问题

MySQL 处理重复数据的方法

发布日期：2016-4-24 19:4:57

　　有些 MySQL 数据表中可能存在重复的记录，有些情况我们允许重复数据的存在，但有时候我们也需要删除这些重复的数据。

　　本章节我们将为大家介绍如何防止数据表出现重复数据及如何删除数据表中的重复数据。

　　防止表中出现重复数据

　　用户可以在MySQL数据表中设置指定的字段为 PRIMARY KEY(主键) 或者 UNIQUE(唯一) 索引来保证数据的唯一性。

　　首先我们来尝试一个实例：下表中无索引及主键，所以该表允许出现多条重复记录。

　　CREATE TABLE person_tbl

　　(

　　first_name CHAR(20),

　　last_name CHAR(20),

　　sex CHAR(10)

　　);

　　如果你想设置表中字段first_name，last_name数据不能重复，那么你可以设置双主键模式来设置数据的唯一性，如果你设置了双主键，那么那个键的默认值不能为NULL，可设置为NOT NULL。如下所示：

　　CREATE TABLE person_tbl

　　(

　　first_name CHAR(20) NOT NULL,

　　last_name CHAR(20) NOT NULL,

　　sex CHAR(10),

　　PRIMARY KEY (last_name, first_name)

　　);

　　如果我们设置了唯一索引，那么在插入重复数据时，SQL语句将无法执行成功,并且抛出错。

　　INSERT IGNORE INTO与INSERT INTO的区别就是INSERT IGNORE会忽略数据库中已经存在的数据，如果数据库没有数据，就插入新的数据，如果有数据的话就跳过这条数据。这样就可以保留数据库中已经存在数据，达到在间隙中插入数据的目的。

　　下面实例使用了INSERT IGNORE INTO，执行后不会出错，也不会向数据表中插入重复数据：

　　mysql> INSERT IGNORE INTO person_tbl (last_name, first_name)

　　-> VALUES( 'Jay', 'Thomas');

　　Query OK, 1 row affected (0.00 sec)

　　mysql> INSERT IGNORE INTO person_tbl (last_name, first_name)

　　-> VALUES( 'Jay', 'Thomas');

　　Query OK, 0 rows affected (0.00 sec)

　　INSERT IGNORE INTO当插入数据时，在设置了记录的唯一性后，如果插入重复数据，将不返回错误，只会以警告形式进行返回。而REPLACE INTO into如果存在primary 或者是 unique相同的记录，那么先删除掉。再插入新记录。

　　另一种设置数据的唯一性方法是添加一个UNIQUE索引，如下所示：

　　CREATE TABLE person_tbl

　　(

　　first_name CHAR(20) NOT NULL,

　　last_name CHAR(20) NOT NULL,

　　sex CHAR(10)

　　UNIQUE (last_name, first_name)

　　);

　　统计重复数据

　　以下我们将统计表中 first_name 与 last_name的重复记录数：

　　mysql> SELECT COUNT(*) as repetitions, last_name, first_name

　　-> FROM person_tbl

　　-> GROUP BY last_name, first_name

　　-> HAVING repetitions > 1;

　　以上查询语句将会返回 person_tbl 表中重复的记录数。在一般情况下，查询重复的值，请执行以下操作：

　　确定哪一列包含的值可能会重复。

　　HAVING子句设置重复数大于1。

　　在列选择列表使用COUNT(*)列出的那些列。

　　在GROUP BY子句中列出的列。

　　重复数据的过滤

　　如果你需要读取不重复的数据可以使用 GROUP BY 来读取数据表中不重复的数据：

　　mysql> SELECT last_name, first_name

　　-> FROM person_tbl

　　-> GROUP BY (last_name, first_name);

　　你也可以在 SELECT 语句中使用 DISTINCT 关键字来过滤重复数据。

　　mysql> SELECT DISTINCT last_name, first_name

　　-> FROM person_tbl

　　-> ORDER BY last_name;

　　重复数据的删除

　　如果你想删除数据表中的重复数据，那么你可以使用以下的SQL语句：

　　mysql> CREATE TABLE tmp SELECT last_name, first_name, sex

　　-> FROM person_tbl;

　　-> GROUP BY (last_name, first_name);

　　mysql> DROP TABLE person_tbl;

　　mysql> ALTER TABLE tmp RENAME TO person_tbl;

　　当然你也可以在数据表中添加 INDEX(索引) 和 PRIMAY KEY(主键)这种简单的方法来删除表中的重复记录。方法如下所示：

　　mysql> ALTER IGNORE TABLE person_tbl

　　-> ADD PRIMARY KEY (last_name, first_name);

上一条: SSD 条件下的 MySQL IO 优化

下一条: Mysql主从复制：从服务器停了该如何解决

相关问题		热门问题
MYSQL的随机查询 PostgreSQL 的秒杀场景优化 PostgreSQL的流式实时统计应用 PostgreSQL的黑科技 PostgreSQL 作为图数据库存储引擎深度解析OceanBase Mongodb与Mysql的优缺点 MongoDB 的指南 PostgreSQL 9.5新特性 SQL 语句 Where 1=1 and 在 ...		Navicat批量导出数据库表到Excel表格... Redis的简介与数据类型存储深度解析OceanBase PrestoDB在京东的应用实践三种 NoSQL 数据库的比较关于RDS MySQL IOPS 使用率高的原... 阿里巴巴高级技术专家沈春辉：选择HBase是一... 通过Mysql-Front客户端解决虚拟主机D... redis cluster的使用经验造成RDS for mysql 有时出现CPU...

新手上路		支付方式	快速通道		服务与支持
域名常见问题	主机常见问题	在线支付	域名信息查询	备案信息查询	帮助中心
邮箱常见问题	云服务器问题	线下汇款	域名控制面板	主机控制面板	网络违法举报
数据库问题	备案问题		万网代备案系统		互联网不良信息举报

业务QQ： 11611616 673768899 673768855		联系电话： 023-61066666 66887777 89082222
离线联系： 13452888882 13452888883 13452888886		备案专线： 023-60887777 备案专员QQ：673768866
联系地址：重庆市九龙坡区石桥铺一城精英国际40层17号 Copyright © 重庆典名科技有限公司 023dns.com All Rights Reserved