抖音资讯

douyinzx

sql开窗函数有哪些(sql窗口函数和开窗函数讲解)

iseeyu2年前 (2024-05-06)抖音资讯139

1.概述

介绍

相信用过MySQL的朋友都知道,MySQL中也有开窗函数的存在。开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。

 

开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。

 

聚合函数和开窗函数

聚合函数是将多行变成一行,count,avg…

开窗函数是将一行变成多行

聚合函数如果要显示其他的列必须将列加入到group by中

开窗函数可以不使用group by,直接将所有信息显示出来

 

开窗函数分类

聚合开窗函数

聚合函数(列) OVER(选项),这里的选项可以是PARTITION BY 子句,但不可以是 ORDER BY 子句。

 

排序开窗函数

排序函数(列) OVER(选项),这里的选项可以是ORDER BY 子句,也可以是OVER(PARTITION BY 子句 ORDER BY 子句),但不可以是 PARTITION BY 子句。

 

2. 准备工作

进入到SparkShell命令行

/export/servers/spark/bin/spark-shell --master spark://node01:7077,node02:7077

创建一个样例类,用于封装数据

case class Score(name: String, clazz: Int, score: Int)

创建一个RDD数组,造一些数据,并调用toDF方法将其转换成DataFrame

val scoreDF = spark.sparkContext.makeRDD(Array(
Score("a1", 1, 80),
Score("a2", 1, 78),
Score("a3", 1, 95),
Score("a4", 2, 74),
Score("a5", 2, 92),
Score("a6", 3, 99),
Score("a7", 3, 99),
Score("a8", 3, 45),
Score("a9", 3, 55),
Score("a10", 3, 78),
Score("a11", 3, 100))
).toDF("name", "class", "score")

创建一个临时表

scoreDF.createOrReplaceTempView("scores")

查询所有数据

scoreDF.show()
+----+-----+-----+
|name|class|score|
+----+-----+-----+
| a1|    1| 80|
| a2|    1| 78|
| a3|    1| 95|
| a4|    2| 74|
| a5|    2| 92|
| a6|    3| 99|
| a7|    3| 99|
| a8|    3| 45|
| a9|    3| 55|
| a10|    3| 78|
| a11|    3| 100|
+----+-----+-----+

3. 聚合开窗函数

示例1

OVER 关键字表示把聚合函数当成聚合开窗函数而不是聚合函数。

SQL标准允许将所有聚合函数用做聚合开窗函数。

spark.sql("select  count(name)  from scores").show spark.sql("select name, class, score, count(name) over() name_count from scores").show

查询结果如下所示:

查询结果如下所示:
+----+-----+-----+----------+                                                   
|name|class|score|name_count|
+----+-----+-----+----------+
| a1|    1| 80|        11| |  a2| 1|   78| 11|
| a3|    1| 95|        11| |  a4| 2|   74| 11|
| a5|    2| 92|        11| |  a6| 3|   99| 11|
| a7|    3| 99|        11| |  a8| 3|   45| 11|
| a9|    3| 55|        11| | a10| 3|   78| 11|
| a11|    3| 100|        11| +----+-----+-----+----------+

示例2

OVER 关键字后的括号中还可以添加选项用以改变进行聚合运算的窗口范围。

如果 OVER 关键字后的括号中的选项为空,则开窗函数会对结果集中的所有行进行聚合运算。

开窗函数的 OVER 关键字后括号中的可以使用 PARTITION BY 子句来定义行的分区来供进行聚合计算。与 GROUP BY 子句不同,PARTITION BY 子句创建的分区是独立于结果集的,创建的分区只是供进行聚合计算的,而且不同的开窗函数所创建的分区也不互相影响。

 

下面的 SQL 语句用于显示按照班级分组后每组的人数:

 

OVER(PARTITION BY class)表示对结果集按照 class 进行分区,并且计算当前行所属的组的聚合计算结果。

spark.sql("select name, class, score, count(name) over(partition by class) name_count from scores").show

查询结果如下所示:

+----+-----+-----+----------+                                                   
|name|class|score|name_count|
+----+-----+-----+----------+
| a1|    1| 80|         3| |  a2| 1|   78| 3|
| a3|    1| 95|         3| |  a6| 3|   99| 6|
| a7|    3| 99|         6| |  a8| 3|   45| 6|
| a9|    3| 55|         6| | a10| 3|   78| 6|
| a11|    3| 100|         6| |  a4| 2|   74| 2|
| a5|    2| 92|         2| +----+-----+-----+----------+ 

4. 排序开窗函数

4.1 ROW_NUMBER顺序排序

row_number() over(order by score) as rownum 表示按score 升序的方式来排序,并得出排序结果的序号

 

注意:

在排序开窗函数中使用 PARTITION BY 子句需要放置在ORDER BY 子句之前。

示例1

 

spark.sql("select name, class, score, row_number() over(partition by class order by score) rank from scores").show()
+----+-----+-----+----+                                                         
|name|class|score|rank|
+----+-----+-----+----+
| a2|    1| 78|   1| |  a1| 1|   80| 2|
| a3|    1| 95|   3| |  a8| 3|   45| 1|
| a9|    3| 55|   2| | a10| 3|   78| 3|
| a6|    3| 99|   4| |  a7| 3|   99| 5|
| a11|    3| 100|   6| |  a4| 2|   74| 1|
| a5|    2| 92|   2| +----+-----+-----+----+

 

4.2 RANK跳跃排序

rank() over(order by score) as rank表示按 score升序的方式来排序,并得出排序结果的排名号。

 

这个函数求出来的排名结果可以并列(并列第一/并列第二),并列排名之后的排名将是并列的排名加上并列数

 

简单说每个人只有一种排名,然后出现两个并列第一名的情况,这时候排在两个第一名后面的人将是第三名,也就是没有了第二名,但是有两个第一名。

实例2

spark.sql("select name, class, score, rank() over(order by score) rank from scores").show()                                                     
+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
| a8|    3| 45|   1| |  a9| 3|   55| 2|
| a4|    2| 74|   3| | a10| 3|   78| 4|
| a2|    1| 78|   4| |  a1| 1|   80| 6|
| a5|    2| 92|   7| |  a3| 1|   95| 8|
| a6|    3| 99|   9| |  a7| 3|   99| 9|
| a11|    3| 100|  11| +----+-----+-----+----+ 
spark.sql("select name, class, score, rank() over(partition by class order by score) rank from scores").show()
+----+-----+-----+----+                                                         
|name|class|score|rank|
+----+-----+-----+----+
| a2|    1| 78|   1| |  a1| 1|   80| 2|
| a3|    1| 95|   3| |  a8| 3|   45| 1|
| a9|    3| 55|   2| | a10| 3|   78| 3|
| a6|    3| 99|   4| |  a7| 3|   99| 4|
| a11|    3| 100|   6| |  a4| 2|   74| 1|
| a5|    2| 92|   2| +----+-----+-----+----+

4.3 DENSE_RANK连续排序

dense_rank() over(order by score) as dense_rank 表示按score 升序的方式来排序,并得出排序结果的排名号。

 

这个函数并列排名之后的排名是并列排名加1

 

简单说每个人只有一种排名,然后出现两个并列第一名的情况,这时候排在两个第一名后面的人将是第二名,也就是两个第一名,一个第二名

 

实例3

spark.sql("select name, class, score, dense_rank() over(order by score) rank from scores").show()
+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
| a8|    3| 45|   1| |  a9| 3|   55| 2|
| a4|    2| 74|   3| |  a2| 1|   78| 4|
| a10|    3| 78|   4| |  a1| 1|   80| 5|
| a5|    2| 92|   6| |  a3| 1|   95| 7|
| a6|    3| 99|   8| |  a7| 3|   99| 8|
| a11|    3| 100|   9| +----+-----+-----+----+
spark.sql("select name, class, score, dense_rank() over(partition by class order by score) rank from scores").show()
+----+-----+-----+----+                                                         
|name|class|score|rank|
+----+-----+-----+----+
| a2|    1| 78|   1| |  a1| 1|   80| 2|
| a3|    1| 95|   3| |  a8| 3|   45| 1|
| a9|    3| 55|   2| | a10| 3|   78| 3|
| a6|    3| 99|   4| |  a7| 3|   99| 4|
| a11|    3| 100|   5| |  a4| 2|   74| 1|
| a5|    2| 92|   2| +----+-----+-----+----+

4.4 NTILE分组排名

ntile(6) over(order by score)as ntile表示按 score 升序的方式来排序,然后 6 等分成 6 个组,并显示所在组的序号。

实例4

spark.sql("select name, class, score, ntile(6) over(order by score) rank from scores").show()
+----+-----+-----+----+
|name|class|score|rank|
+----+-----+-----+----+
| a8|    3| 45|   1| |  a9| 3|   55| 1|
| a4|    2| 74|   2| |  a2| 1|   78| 2|
| a10|    3| 78|   3| |  a1| 1|   80| 3|
| a5|    2| 92|   4| |  a3| 1|   95| 4|
| a6|    3| 99|   5| |  a7| 3|   99| 5|
| a11|    3| 100|   6| +----+-----+-----+----+
spark.sql("select name, class, score, ntile(6) over(partition by class order by score) rank from scores").show()
+----+-----+-----+----+                                                         
|name|class|score|rank|
+----+-----+-----+----+
| a2|    1| 78|   1| |  a1| 1|   80| 2|
| a3|    1| 95|   3| |  a8| 3|   45| 1|
| a9|    3| 55|   2| | a10| 3|   78| 3|
| a6|    3| 99|   4| |  a7| 3|   99| 5|
| a11|    3| 100|   6| |  a4| 2|   74| 1|
| a5|    2| 92|   2| +----+-----+-----+----+

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://0291.com.cn/post/43388.html

相关文章

抖音搜索干货|抖音SEO的排名规则

抖音搜索干货|抖音SEO的排名规则

1、分析竞争对手想要做抖音的关键词排名,首先要搜索你的目标关键词,看看排在前面的竞争对手是怎么做的,一般可以从排名前10的几个搜索结果进行分析,分析的维度可以包括以下几个方面:1)账号的定位2)视频的封面、标题、标签使用3)视频的(开始、中间、结尾是如何一步步满足用户的需求...

抖音为什么打不开了闪退(抖音刷着就自动退出的原因)

抖音为什么打不开了闪退(抖音刷着就自动退出的原因)

抖音黑屏打不开是什么原因?貌似,抖音服务器炸了,许多网友都遭遇了类似的事情。那么,抖音APP什么时候才能够修复好呢? 抖音黑屏打不开是什么原因 网友一:我还以为我手机的问题,关机再开机卸载再安装 网友二:+1,差点就把wifi砸了 网友三:看来真不是我的问题。一直让我在鼓捣手...

【学堂直播课】效率工具,让快手广告管理变得更简单高效!

【学堂直播课】效率工具,让快手广告管理变得更简单高效!

尊敬的快手广告管理主,您好! 针对广告主们在广告管理中账户多操作麻烦、重复操作、监控不及时、移动办公需求强烈、个性化需求难以满足等问题,我们开设了第四期【学堂直播课】——“效率工具,让广告管理变得更简单高效!” 我们将为您系统介绍快手三大效率工具:账户管家、广告投放管理APP、Marketing...

录音设备都有哪些(最简单的录音设备推荐)

录音设备都有哪些(最简单的录音设备推荐)

前阵子看到有位粉丝留言,感叹说:“配音圈不好进啊!”。 作为国内目前唯一一个客户和配音员可以直接沟通的真人配音在线交易平台,配音圈在入驻审核、服务审核等方面,由于严格的审核制度,婉拒了很多声音不够专业,还需练习,没有录音设备的配音小白、爱好者们。   “您好!欢迎来到配音圈...

百度广告知识闪电产品FAQ

百度广告知识闪电产品FAQ

Q:客户准入标准? A:客户准入要求(适用于敏感行业): 若近一年内,客户产品或品牌购买过品专,则可投放知识闪电印象版; 若近一年内,客户产品或品牌购买过凤巢或原生,但未购买品专,则销售需要向知道侧提供客户产品或品牌的行业排名等权威性证明资料,并由知道侧判断准入与否。 禁投行业:药品(禁投除...

15年360搜索开户促销活动-360推广

15年360搜索开户促销活动-360推广

2014年8月22日,360搜索超过30%的市场份额,360搜索的成长离不开网民的支持,为答谢广大 用户对360搜索的支持与厚爱,我们对即将加入360搜索队伍的您奉上一份温暖大礼!  活动一:首次预存5000元 + 1000元年服务费,赠德国超薄SOYES S1三防迷你卡片手机、德国...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片