对于数据分析来说,MySQL使用最多的是查询,比如对数据进行排序、分组、去重、汇总及字符串匹配等,如果查询的数据涉及多个表,还需要要对表进行连接,本文就来说说MySQL中常用的查询子句。
1、排序:order by
排序通过order by实现,例如,从表stuinfo中查询数据,并按照年龄排序,sql语句为:
select * from stuinfo order by age;
查询结果:
可以看到,查询结果是按照年龄进行升序排列的,如果要实现降序排列,只需要在后面加上desc即可,sql语句为:
select * from stuinfo order by age desc;
查询结果:
此时的查询结果按照年龄降序排列。
如果是字符串,也可以用order by进行排序,例如,按照姓名排序,sql语句为:
select * from stuinfo order by stuname;
查询结果:
从上面可以看到,字符串排序其实是按照首字母进行升序排列,当然还可以对日期进行排序,请自行思考。
2、分组:group by
分组通过group by子句实现,例如,按照性别分组,sql语句为。
select gender,count(*) from stuinfo group by gender;
查询结果:
以上sql语句按照性别分组,并给出每组的人数,按照其他字段分组也是类似的。
3、去重:distinct
去重是数据处理中常见的操作,通过distinct子句实现,例如查询学员所在的所有城市,这就需要去重,因为有些学员在同一个城市。
sql语句为:
select distinct city from stuinfo;
查询结果:
可以看到,去重就是在去重字段前加上distinct即可。
4、空值:is null/is not null
空值就是判断某个字段为空或者不为空的记录,例如,查询城市为空的记录,sql语句为:
select * from stuinfo where city is null;
查询结果:
可以看到,查询为空的记录其实就是where条件后跟is null。
反过来,如果查询城市不为空的记录,跟上is not null即可,sql语句为:
select * from stuinfo where city is not null;
查询结果:
想系统学习数据分析?请查看下方专栏。
5、汇总:计数、最值、求和、均值
汇总其实计数、求最大值/最小值、求和、求均值等。
最常用的统计表中有多少记录,通过count实现,sql语句为:
select count(*) from stuinfo;
查询结果:
查询表中某个字段的最大值和最小值,通过max/min实现,例如查询最大年龄,sql语句为:
select max(age) from stuinfo;
查询结果:
接下来的一个问题:查询年龄最大的学员的姓名,sql语句怎么写?
这是一个条件查询,条件就是年龄要等于最大的年龄,按照这个思路,写出sql语句:
select stuname,age from stuinfo
where age=(select max(age) from stuinfo);
查询结果:
从上面可以看到,其实是把最大的年龄查询出来作为条件,再查询对应的姓名和年龄。
留个思考题:如何查询年龄最小的学员姓名?
求和,用sum即可,一定是对数值型数据求和,跟count类似,这样不做演示。
最后是均值,用avg,例如,查询所有学员的平均年龄,sql语句为:
select avg(age) from stuinfo;
查询结果:
6、别名:as
别名,就是as,意为用作,例如,查询出年龄的最大值、最小值和均值,sql语句为:
select max(age),min(age),avg(age) from stuinfo;
查询结果:
这样显示字段名不太好看,我们可以用as起一个别名,sql语句为:
select max(age) as age_max,min(age) as age_min,avg(age) as age_avg from stuinfo;
查询结果:
7、表的连接
当要查询的记录涉及两个或者两个以上的表时,就需要表的连接。
表的连接有三种:内连接、左连接和右连接。
(1)内连接:inner join
内连接相当于求两个表的交集,如下图所示。
例如,有两个表:学员信息表和成绩表,有一个共同的列:学号,如下图所示。
现在想查询出每个学员的姓名和成绩,查询结果如下图所示。
以上查询结果中的姓名需要从第一个表中提取,成绩需要从第二个表中提取,这叫表的连接。
因为学号是共同的列,所以根据学号连接即可,以上的这种连接方式是获取两个表中学号相同的记录,叫作内连接。
具体的sql语句为:
select sname,score from
tb1 inner join tb2 on tb1.sid=tb2.sid;
查询结果:
需要注意的是,连接条件用on。
(2)左连接:left join
左连接是以左表为基准,去匹配右表中的记录,如果右表中没有对应匹配记录则为空。
左连接用集合中的文氏图表示如下。
还是用以上提到的学员信息表和成绩表,左连接的结果为:
左连接的sql语句为:
select sname,score from
tb1 left join tb2 on tb1.sid=tb2.sid;
查询结果:
(3)右连接:right join
右连接是以右表为基准,去匹配左表中的记录,如果左表中没有对应匹配记录则为空。
右连接用集合中的文氏图表示如下。
还是用以上提到的学员信息表和成绩表,右连接的结果为:
右连接的sql语句为:
select sname,score from
tb1 right join tb2 on tb1.sid=tb2.sid;
查询结果:
8、字符串匹配:like
有时候在字符串查找时,需要查找符合某个匹配模式的字符串。
例如,在表stuinfo中,查找城市中含有字符串‘an’的记录,sql语句为:
select * from stuinfo where city like '%an%';
注意:匹配模式中的%表示匹配任意长度的任意字符串。
9、集合:in
查找属于某个集合的记录用in。
例如,查找城市为北京或者天津的记录,sql语句为:
select * from stuinfo where city in('Beijing','Tianjin');
查询结果:
10、条件语句:having
这里说的条件语句是having,跟where类似,但是一般和统计函数连用。
比如,查找平均年龄小于25岁的城市,sql语句为:
select city from stuinfo group by city having avg(age)<25;
查询结果:
以上sql语句先按照城市分组,再跟条件语句having。
11、区间查找:between and
between and用于查找符合某个区间(包含两个边界的值)的记录。
例如,查找年龄介于20到30岁之间的记录,sql语句为:
select * from stuinfo having age between 20 and 30;
查询结果:
12、联结:union
联结,也叫联合,用于连接两个查询的结果,并且去重。
例如,两个表中都有学号,用sql语句分别从这两个表中查询出学号,然后联结。
select sid from tb1
union
select sid from tb2;
查询结果:
以上sql语句相当于将两个select语句的查询结果用union合并,并且是去重合并。
如果不想去重,用union all即可,sql如下。
select sid from tb1
union all
select sid from tb2;
查询结果:
13、日期格式化:date_format
在SQL中,对于日期时间的处理也是很常见的问题。
例如,按照年份、月份或者日期等对数据进行分组汇总,就需要从日期时间中提取年份、月份及日期等。
举个例子,获取每个学员的出生年份,sql语句为:
select date_format(birthdate,'%Y') as birth_year from stuinfo;
查询结果:
获取出生月份也是如此,只是参数用'%m',sql语句为:
select date_format(birthdate,'%m') as birth_year from stuinfo;
查询结果:
获取到年份、月份后,就可以按照年份、月份进行分组查询统计了。
14、条件分支:case语句
条件分支是数据统计中的一个很重要的应用,在MySQL中用case语句表达条件分支,case语句有以下两种用法。
用法一:
例如,根据学员所处的城市,将记录标记为一线城市及其他,sql语句为:
select distinct city,
case city
when 'Beijing' then '一线城市'
when 'Shanghai' then '一线城市'
else '其他' end as city_level
from stuinfo;
查询结果:
从上面看到,case后面跟的是要判断的字段,when后跟的是不同的情况,then则是不同情况对应的类别,最后的else表示其他情况。
整个case语句相当于给原来的表增加一个字段:city_level,然后我们可以根据这个字段进行分组查询。
用法二:
例如,根据学员的年龄进行分层,青年、中年及其他,sql语句为:
select stuname,age,
case when age<30 then '青年'
when age>=30 and age<35 then '中年'
else '其他' end as age_level
from stuinfo;
查询结果:
从上面可以看到,case后面跟的是条件when,即年龄满足什么条件时,将其划分到对应的类别,最后的else表示其他情况。
整个case语句相当于给原来的表增加一个字段:age_level,然后我们可以根据这个字段进行分组查询。
15、变量
最后,谈谈MySQL中的变量,当然,MySQL中的变量有好几种类型,这里只说用户变量,像@var这种。
例如,我们希望根据学员的年龄计算出每个人到35岁还有几年,这里可以定义一个变量并赋值为35,然后利用这个变量减去年龄就得到结果。
首先,定义变量var,sql语句为:
set @var:=35;
接着,使用这个变量,sql语句为:
select @var-age as age_gap from stuinfo;
查询结果:
当然,关于变量还有很多更复杂的用法,多用于计算连续登陆天数这种问题或者存储过程中。
以上就是MySQL中常用的15个查询子句。