Apache Spark是一个用于大规模数据分析处理的引擎。它支持JAVA、Scala、Python和R语言。
在数据分析人工智能领域 Python的使用已经远超其它语言。
其中Spark还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX以及用于增量计算和流处理的Spark Streaming。
本文使用PySpark的SQL module 来实现对CSV文件数据分析及处理。
虽然Spark擅长的是大数据分析,但是通过这个例子我们可以看一下Spark数据分析是怎么做的,杀鸡得用宰牛刀了️
新冠疫情到目前为止世界各国康复人数的Top统计,如下图:
结果展示
我们现在有一份联合国发布的关于新冠康复人数的统计信息,这里面包含国家,省份,还有每日更新的总康复人数
最后一列"2020年6月23号"就是我们需要的信息。
输入文件
我们这次要统计的是,基于国家的康复的人数从大到小的排列。并且总数大于1万。
建立 spark context
打开文件
按国家名统计人数
国家级人数总和
按人数从大到小排序
排序后结果
总数大于10000并重命名列
最后数据输出结果
写入CSV文件
最终结果数据