您当前的位置：首页 > 电脑百科 > 数据库 > 百科

使用SQL分析数据科学职业发展趋势

时间：2023-10-10 15:44:00 来源：Python学研大本营作者：

+ 加入收藏

在数据成为新石油的今天，了解数据科学职业的细微差别比以往任何时候都更加重要。无论你是正在寻找机会的数据爱好者，还是资深数据专家，使用SQL都可以让你深入了解数据科学就业市场。

本文可以带你了解哪些数据科学职位最具吸引力，或者哪些职位能够提供最高薪水。或许，你还想知道经验水平如何与数据科学的平均工资挂钩？

在本文中，将深入研究数据科学就业市场，从而解答所有这些问题（以及更多问题）。跟随本文开始了解吧！

数据集薪资趋势

本文将使用的数据集旨在揭示2021年至2023年期间数据科学领域的薪资模式。通过重点关注工作历史、工作职位以及公司地点等因素，该数据集为了解该行业的工资分布情况提供了重要依据。

本文将为以下问题找到答案：

不同经验水平的平均工资是什么样的？
数据科学领域中最常见的职位名称是什么？
薪资分布如何随公司规模变化？
数据科学岗位主要位于哪些地理位置？
数据科学中哪些职位提供薪酬最高？

可以从Kaggle下载这些数据。

【数据集】：https://www.kaggle.com/code/zabihullah18/data-science-salary-trend

1. 不同经验水平的平均工资是什么样的？

在这个SQL查询中，本文正在找出不同经验水平的平均工资。GROUP BY子句按经验水平对数据进行分组，AVG函数计算每个组的平均工资。

这有助于了解该领域的经验如何影响收入潜力，这对规划数据科学的职业道路至关重要。接下来查看一下代码。

SELECT experience_level, AVG(salary_in_usd) AS avg_salary
FROM salary_data
GROUP BY experience_level;

现在，本文使用Python/ target=_blank class=infotextkey>Python可视化这个输出。

以下是代码。

# 导入绘图所需的库
import matplotlib.pyplot as plt
import seaborn as sns
# 设置图表样式
sns.set(style="whitegrid")

# 初始化用于存储图形的列表
graphs = []

plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=df, estimator=lambda x: sum(x) / len(x))
plt.title('Average Salary by Experience Level')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.Append(plt.gcf())
plt.show()

现在，本文来比较一下入门级和资深级、中级和高级的工资。

首先从入门级和资深级的开始。以下是代码。

# 筛选入门级和资深级的数据
entry_experienced = df[df['experience_level'].isin(['Entry_Level', 'Experienced'])]

# 筛选中级和高级数据
mid_senior = df[df['experience_level'].isin(['Mid-Level', 'Senior'])]

# 绘制入门级与资深级的对比图表
plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=entry_experienced, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0)
plt.title('Average Salary: Entry_Level vs Experienced')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

这是生成的图表。

现在，本文来绘制中级和高级的工资。以下是代码。

# 绘制中级和高级的图表
plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=mid_senior, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0)
plt.title('Average Salary: Mid-Level vs Senior')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

2. 数据科学领域中最常见的职位名称是什么？

在这里，本文将提取数据科学领域中前10个最常见的职位名称。COUNT函数会统计每个职位名称的出现次数，并按降序排列结果，从而将最常见的职位名称排在最前面。

通过这些信息，可以了解就业市场的需求情况，从而确定自己可以瞄准的潜在职位目标。接下来查看一下代码。

SELECT job_title, COUNT(*) AS job_count
FROM salary_data
GROUP BY job_title
ORDER BY job_count DESC
LIMIT 10;

好的，现在使用Python来可视化这个查询。

以下是代码。

plt.figure(figsize=(12, 8))
sns.countplot(y='job_title', data=df, order=df['job_title'].value_counts().index[:10])
plt.title('Most Common Job Titles in Data Science')
plt.xlabel('Job Count')
plt.ylabel('Job Title')
graphs.append(plt.gcf())
plt.show()

接下来看看图表。

3. 薪资分布如何随公司规模变化？

在这个查询中，本文提取了每个公司规模分组的平均薪资、最低薪资和最高薪资。使用AVG、MIN和MAX等聚合函数有助于全面了解薪资情况与公司规模的关系。

这些数据非常重要，因为它们可以帮助你了解可以期望的潜在收入，这取决于你想要加入的公司的规模。接下来查看一下代码。

SELECT company_size, AVG(salary_in_usd) AS avg_salary, MIN(salary_in_usd) AS min_salary, MAX(salary_in_usd) AS max_salary
FROM salary_data
GROUP BY company_size;

现在，本文将使用Python来可视化这个查询。

以下是代码。

plt.figure(figsize=(12, 8))
sns.barplot(x='company_size', y='salary_in_usd', data=df, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0, order=['Small', 'Medium', 'Large'])
plt.title('Salary Distribution by Company Size')
plt.xlabel('Company Size')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

以下是输出结果。

4. 数据科学岗位主要位于哪些地理位置？

在这里，本文确定了拥有最多数据科学职位机会的前10个地点。本文使用COUNT函数来确定每个地点的职位发布数量，并按降序排列，以突出显示机会最多的地区。

掌握了这些信息，可以帮助读者了解数据科学职位的中心地理区域，有助于做出潜在的迁移决定。接下来查看一下代码。

SELECT company_location, COUNT(*) AS job_count
FROM salary_data
GROUP BY company_location
ORDER BY job_count DESC
LIMIT 10;

现在，本文将使用Python来绘制上述代码的图表。

plt.figure(figsize=(12, 8))
sns.countplot(y='company_location', data=df, order=df['company_location'].value_counts().index[:10])
plt.title('Geographical Distribution of Data Science Jobs')
plt.xlabel('Job Count')
plt.ylabel('Company Location')
graphs.append(plt.gcf())
plt.show()

请查看如下所示的图表。

5. 数据科学领域中哪些职位提供薪酬最高？

在这里，本文确定了数据科学领域中薪资最高的前10个职位头衔。通过使用AVG，本文计算出每个职位头衔的平均薪资，并根据平均薪资的降序排序，以突出显示最赚钱的职位。

通过查看这些数据，可以在自己的职业道路上有所追求。接下来继续了解读者如何为这些数据创建Python可视化。

SELECT job_title, AVG(salary_in_usd) AS avg_salary
FROM salary_data
GROUP BY job_title
ORDER BY avg_salary DESC
LIMIT 10;

以下是输出结果。

排名	职位头衔	平均薪资（美元）
1	数据科学技术主管	375,000.00
2	云数据架构师	250,000.00
3	数据主管	212,500.00
4	数据分析主管	211,254.50
5	首席数据科学家	198,171.13
6	数据科学总监	195,140.73
7	首席数据工程师	192,500.00
8	机器学习软件工程师	192,420.00
9	数据科学经理	191,278.78
10	应用科学家	190,264.48

这次，读者可以尝试自己创建一个图表。

提示：可以使用以下ChatGPT中的提示来生成此图形的Pythonic代码：

<SQL Query here>

Create a Python graph to visualize the top 10 highest-paying job titles in Data Science, similar to the insights gathered from the given SQL query above.

# <SQL查询代码>

# 创建一个Python图形来可视化数据科学领域中薪资最高的前10个职位头衔，类似于上述给定SQL查询所得到的见解。

结语

跟随本文结束对数据科学职业世界的多种探索，希望SQL能成为一个可靠的指南，帮助你发掘出有关支持职业决策的见解。

Tags：SQL 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

MySQL 核心模块揭秘

server 层会创建一个 SAVEPOINT 对象，用于存放 savepoint 信息。binlog 会把 binlog offset 写入 server 层为它分配的一块 8 字节的内存里。 InnoDB 会维护自己的 savepoint...【详细内容】

2024-04-03　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　Search: SQL 点击:(3)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　Search: SQL 点击:(13)　　评论:(0)　　加入收藏

MySQL 核心模块揭秘，你看明白了吗？

为了提升分配 undo 段的效率，事务提交过程中，InnoDB 会缓存一些 undo 段。只要同时满足两个条件，insert undo 段或 update undo 段就能被缓存。1. 关于缓存 undo 段为了提升分...【详细内容】

2024-03-27　　Search: SQL 点击:(10)　　评论:(0)　　加入收藏

MySQL：BUG导致DDL语句无谓的索引重建

对于5.7.23之前的版本在评估类似DDL操作的时候需要谨慎，可能评估为瞬间操作，但是实际上线的时候跑了很久，这个就容易导致超过维护窗口，甚至更大的故障。一、问题模拟使用5.7.22...【详细内容】

2024-03-26　　Search: SQL 点击:(8)　　评论:(0)　　加入收藏

从 MySQL 到 ByteHouse，抖音精准推荐存储架构重构解读

ByteHouse是一款OLAP引擎，具备查询效率高的特点，在硬件需求上相对较低，且具有良好的水平扩展性，如果数据量进一步增长，可以通过增加服务器数量来提升处理能力。本文将从兴趣圈层...【详细内容】

2024-03-22　　Search: SQL 点击:(23)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　Search: SQL 点击:(4)　　评论:(0)　　加入收藏

MySQL自增主键一定是连续的吗？

测试环境：MySQL版本：8.0数据库表：T （主键id，唯一索引c，普通字段d）如果你的业务设计依赖于自增主键的连续性，这个设计假设自增主键是连续的。但实际上，这样的假设是错的，因为自增主键不...【详细内容】

2024-03-10　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

准线上事故之MySQL优化器索引选错

1 背景最近组里来了许多新的小伙伴，大家在一起聊聊技术，有小兄弟提到了MySQL的优化器的内部策略，想起了之前在公司出现的一个线上问题，今天借着这个机会，在这里分享下过程和结论...【详细内容】

2024-03-07　　Search: SQL 点击:(26)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(4)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(3)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(13)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(12)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(6)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(13)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(4)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(19)　　评论:(0)　　加入收藏

推荐资讯

小米SU7被大卸八块，雷	视频号，从抖音挖来一个
0首付、0利息！多家车企	真正0首付、0利息来了
微信共享位置怎么换地	微信搜索seo优化策略：
微信恢复聊天记录全攻	如何实现微信聊天记录