国内最专业的IT技术学习网

UI设计

当前位置:主页 > 亚博2018体育博彩 >

这些方法解决了数据清洗 80% 的工作量

发布时间:2019/09/09标签:   数据    点击量:

原标题:这些方法解决了数据清洗 80% 的工作量
译者简介:北京第二本国语学院国内商务业余研一在读,现在在进修Python编程和量化投资相干常识。作者:Real Python×DataCamp洁净整齐的数据是后续停止研讨和剖析的基本。数据迷信家们会破费大批的时光来清算数据集,绝不夸大地说,数据荡涤会盘踞他们80%的任务时光,而真正用来剖析数据的时光只占到20%阁下。以是,数据荡涤究竟是在荡涤些甚么?平日来讲,你所猎取到的原始数据不能间接用来剖析,由于它们会有种种百般的成绩,如包括有效信息,列名不标准、格局纷歧致,存在反复值,缺失值,异样值等.....本文会给各人先容怎样用Python中自带的Pandas和NumPy库停止数据荡涤。在正式讲授之前,先简略先容一下这两个十分好用的库。Pandas的称号来自于Panel data和Python数据剖析data analysis,是Python的一个数据剖析包,最后由AQR Capital Management于2008年4月开辟,被作为金融数据剖析东西,为时光序列剖析供给了很好的支撑,并于2009岁尾开源进去。NumPy是Numeric Python的缩写,是Python的一种开源的数值盘算扩大,可用来存储和处置大型矩阵matrix,比Python本身的嵌套列表构造要高效的多,供给了很多高等的数值编程东西,如:矩阵数据范例、矢量处置,以及周密的运算库,专为停止严厉的数字处置而发生。名目1、懂得数据2、荡涤数据去除不须要的行、列从新定名列从新设置索引用字符串操纵标准列用函数标准列删除反复数据添补缺失值3、总结【注】为了清楚直观地展现数据荡涤操纵,本文会用到几个差别的数据集,重点是方式的讲授。【东西】Python 31、懂得数据拿到一个全新的数据集,应当从那里动手?没错,咱们须要先懂得数据,看看它长甚么模样。这里用tushare.pro下面的日线行情数据停止展现,以浦发银行(600000.SH)为例。罕用的方式和属性以下:.head().tail().shape.columns.info().describe().value_counts()起首,猎取数据:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimporttushareastspd.set_option('display.max_columns',100)#设置表现数据的最大列数,避免呈现省略号…,招致数据表现不全pd.set_option('expand_frame_repr',False)#当列太多时不主动换行pro=ts.pro_api()df=pro.daily(ts_code='600000.SH',start_date='20190401',end_date='20190430').head()检查前n行数据,默许值是5df.head()Out[1]:ts_codetrade_dateopenhighlowclosepre_closechangepct_chgvolamount0600000.SH2019043011.7012.0911.7011.9711.480.494.26831234747.381466714.7101600000.SH2019042911.3511.5411.3411.4811.320.161.4134385869.38442046.7272600000.SH2019042611.4311.5611.2811.3211.54-0.22-1.9064424695.81485267.2613600000.SH2019042511.5611.6911.4811.5411.62-0.08-0.6885408761.29473973.5274600000.SH2019042411.7611.7711.5111.6211.70-0.08-0.6838382011.08444929.313

上一篇:如何更改Linux终端颜色主题

下一篇:没有了

返回
版权信息Copyright ? 银河官网 版权所有??? ICP备案编号:鲁ICP备09013610号