您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

Python数据分析——处理中国地区信息

时间:2021-12-29 11:50:45  来源:  作者:Python不秃头

数据的爬取

代码:

import pandas as pd

data=pd.read_csv("example_data.csv",header=1)

print(data)

data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk')

data2=pd.read_csv("天津地区信息.csv",encoding='gbk')

print(data1)

print(data2)

代码运行结果:

Python数据分析——处理中国地区信息

 

首先使用pandas的read_csv()方法进行数据的读取,然后就能够看到相应的表格信息。

检查重复数据

# 2.2检查重复数据

dupnum=data.duplicated()

print(dupnum)

# 对重复值进行处理

caldup=data.drop_duplicates()

print(caldup)

代码运行结果:

Python数据分析——处理中国地区信息

 

主要是是使用这个duplicated()方法进行数据的查重,返回一个布尔序列,仅对唯一元素而言为True。如果有重复的数据就会在该数值的部分返货Flase。

然后我们就可以使用drop_duplicates()进行重复值删除。

检查缺失值

代码:

from pandas import Series

from numpy import NAN

# import pandas as pd 

series_obj=Series([1,None])

pd.notnull(series_obj)

# 上面做的是测试

pd.notnull(data)

pd.notnull(data1)

pd.notnull(data2)

代码运行结果:

Python数据分析——处理中国地区信息

 

使用pd.notnull(data1)进行非空数值的返回, 返回值是布尔型的矩阵,再取df[布尔型矩阵]返回的是id为非空的行。

检查异常值

import numpy as np

# 2.4 检查异常值

def three_sig(ser1):

  mean_value=ser1.mean()

#   标准差

  std_value=ser1.std()

#   位于3σ范围外的都是异常值

# 数值大于u+3σ小雨u-3σ

  rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)

  index=np.arange(ser1.shape[0])[rule]

  outrange=ser1.iloc[index]

  return outrange

three_sig(data2["女性"])

代码运行结果:

Python数据分析——处理中国地区信息

 


Python数据分析——处理中国地区信息

 

3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。

通俗理解就是正态分布。



Tags:数据分析   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
“小王,你把这些用户数据分析下,分别打个价值标签给我,我们制定一下618的营销活动。”这时候你拿着用户数据一脸懵?打标签?从哪几个维度?脑海里仿佛有很多想法,但又不知道从何做起...【详细内容】
2022-05-30  Tags: 数据分析  点击:(1)  评论:(0)  加入收藏
Python是非常接近人类语言的一门计算机语言,简单易懂的语法,可以让我们更好的理解,还有强大的第三方库,程序编辑的效率也可以大幅度提高。 《关于全面开展中小学生人工智能教育...【详细内容】
2022-05-25  Tags: 数据分析  点击:(52)  评论:(0)  加入收藏
本文作者 | 经韬纬略智库全文 4586 字 数据是数字化的证据&mdash;&mdash;没有记录下来的事情就没有发生过 追溯&mdash;&mdash;追责、求根源、求真相 监控&mdash;&mdash;监...【详细内容】
2022-05-06  Tags: 数据分析  点击:(67)  评论:(0)  加入收藏
又是一年春招季,你最近有为找工作或换工作而犯愁吗?现在已经进入春招的“金三银四”决赛圈了,再不好好准备真的是黄花菜都要凉了。那么如何才能在“岗少人多”、“僧多粥少”的...【详细内容】
2022-04-13  Tags: 数据分析  点击:(50)  评论:(0)  加入收藏
大家好,我是老班~很多读者问过我,文章中的Python代码都是用的什么编辑器写的?今天就公开啦:Jupyter Notebook,没有Pycharm,没有Vscode,没有Sublime text。只有一款工具:Jupyter Note...【详细内容】
2022-04-12  Tags: 数据分析  点击:(76)  评论:(0)  加入收藏
本帖由东南亚最大的超级应用程序之一Gojek的商业智能BI前高级副总裁Crystal撰写。以下是摘要,原文点击标题:Gojek成为东南亚最大的消费交易技术集团,其超级app应用包括订购食...【详细内容】
2022-02-14  Tags: 数据分析  点击:(81)  评论:(0)  加入收藏
关系型数据库是目前最受欢迎的数据库管理系统,技术比较成熟,常见的关系型数据库有mysql 、SQL Server、Oracle、Sybase、DB2等。SQL Server 是Microsoft 公司推出的关系型数据...【详细内容】
2022-02-09  Tags: 数据分析  点击:(73)  评论:(0)  加入收藏
小伙们经常听到这样一句话:“数据分析师一定要懂业务!”那到底啥玩意才是业务?懂多少才算懂业务?今天跟大家分享一下。一、什么是业务?业务是相对于技术和行政来说的,是企业里一种...【详细内容】
2022-01-07  Tags: 数据分析  点击:(74)  评论:(0)  加入收藏
数据的爬取代码:import pandas as pddata=pd.read_csv("example_data.csv",header=1)print(data)data1=pd.read_csv("北京地区信息.csv",header=1,encoding=&#39;gbk&#39;)da...【详细内容】
2021-12-29  Tags: 数据分析  点击:(136)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  Tags: 数据分析  点击:(128)  评论:(0)  加入收藏
▌简易百科推荐
近几年 Web3 被炒得火热,但是大部分人可能还不清楚什么是 Web3,今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么?与我们熟知的 Web1 和 Web2 又有什么区别呢?web3.0什么是...【详细内容】
2022-07-15  编程狮W3Cschool    Tags:Web3.0   点击:(2)  评论:(0)  加入收藏
1、让我们一起来看下吧,直接上图。 第一眼看到是不是觉得很高逼格,暗黑画风,这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统,而且还包含了许多非常强大...【详细内容】
2022-07-15  IT智能化专栏    Tags:AidLearning   点击:(2)  评论:(0)  加入收藏
真正的大师,永远都怀着一颗学徒的心! 一、项目简介 今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能 基于RBAC权限系统 录像回放 ...【详细内容】
2022-07-14  菜鸟程序猿    Tags:Python   点击:(3)  评论:(0)  加入收藏
前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接,废话不多说咱们直接进入主题吧。 一、什么是 PyMySQL?PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库,P...【详细内容】
2022-07-11  测试架构师百里    Tags:python   点击:(19)  评论:(0)  加入收藏
aiohttp什么是 aiohttp?一个异步的 HTTP 客户端\服务端框架,基于 asyncio 的异步模块。可用于实现异步爬虫,更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】
2022-07-11  VT漫步    Tags:aiohttp   点击:(15)  评论:(0)  加入收藏
今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中,比如爬虫,有的线程负责爬取数据,有的线程负责对爬取到的数据做处理(清洗、分类和入库)。假如他们是直接交互的,...【详细内容】
2022-07-06  VT漫步    Tags:Python Queue   点击:(34)  评论:(0)  加入收藏
继承:是面向对象编程最重要的特性之一,例如,我们每个人都从祖辈和父母那里继承了一些体貌特征,但每个人却又不同于父母,有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】
2022-07-06  至尊小狸子    Tags:python   点击:(25)  评论:(0)  加入收藏
点击上方头像关注我,每周上午 09:00准时推送,每月不定期赠送技术书籍。本文1553字,阅读约需4分钟 Hi,大家好,我是CoCo。在上一篇Python自动化测试系列文章:Python自动化测试之P...【详细内容】
2022-07-05  CoCo的软件测试小栈    Tags:Python   点击:(27)  评论:(0)  加入收藏
第一种方式:res = requests.get(url, params=data, headers = headers)第二种方式:res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】
2022-07-05  独钓寒江雪之IT    Tags:Python request   点击:(19)  评论:(0)  加入收藏
什么是python类的多态python的多态,可以为不同的类实例,或者说不同的数据处理方式,提供统一的接口。用比喻的方式理解python类的多态比如,同一个苹果(统一的接口)在孩子的眼里(类实...【详细内容】
2022-07-04  写小说的程序员    Tags:python类   点击:(28)  评论:(0)  加入收藏
站内最新
站内热门
站内头条