BOOKING

2020年5月6日星期三

about SFO data, group by 用法

关于Groupby的用法,看来是必须掌握的。
首先本以为可以直接使用df.get_group,但是不行
必须要先


sfo_groupdata=sfo.groupby(['TRANSACTION'])

然后再作一个for loop 打印出每一个值

for TRANSACTION, TRANSACTION_df in sfo_groupdata:
    print(TRANSACTION)
    print(TRANSACTION_df)


这样就可以列表出来了, 然后再使用get_group这个方法,就可以调出来所有AIR CHINA的数据了

airchina = sfo_groupdata.get_group('AIR CHINA')
airchina

用下面的describe()列举出全部的相关的参数

airchina.describe()

TIMEFLIGHT_NUMBERTRANSACTIONTERMINALGATEREMARK
count34883488348834883450177
unique3488521124
top09/29/2015 02:38:00 PMCA985ARRIG99Closed
freq1160817443488272597


Count: 表示AirChina出现的次数
uniqe: 表示出现的唯一次数
top: 最上面的一次出现的次数

2020年5月4日星期一

pivot_ui(pivot_data) 解决了 jupyter notebook drop&drag 图表的问题

from pivottablejs import pivot_ui
pivot_ui(df)
没有用到的话,尽快pip install 一个

2020年5月3日星期日

pandas pivot table explained


Jupyter Notebook 攻略 - SFO机场的数据处理

上个星期五收到了一个面试的通知,兴奋得不得了,已经投了一年的简历在这家公司。今天终于算是有结果了,可是一切美梦终成为镜花泡影。只因为这次面试。这也激发了我痛下决心,在数据处理和挖掘方面要深入学习。以前,个人觉得数据的处理已经可以登峰造极了。Excel pivot 结合VBA调用SQL数据库,还有什么做不到的。现在看来应了那句老话,水浅王八多。

面试assigment 1:

下载三藩市机场的数据,然后对数据进行处理,根据数据给出机场运营建议。看了题之后,我都要笑出声来了。结果,下载了数据一看。excel停留在100万行左右,错误信息显示,当前数据可能无法显示完全。手抖+心慌。剩下的就不说了,等下次机会吧。

赶紧别说别的了,抓紧学起来。

首先jupyter 安装起来





打开jupyter,导入panda

import pandas as pd

打开CSV的数据

sfo=pd.read_csv("C:\Users\mingwei.zhang\Downloads\SFO_gate.csv")

列出


如果想针对某一列的数据进行筛选的话,以下是针对Remark列下面的所有飞机起飞时间进行筛选结果。



如果是想筛选非空的数据的话 sfo[sfo[u'REMARK'].notnull()]


如果想对数据排列的话,sfo[sfo[u'REMARK'].notnull()].sort_values(by='AIRLINE')

如果需要查询两个条件以上的话,最好是给出新的命名,否则可能不会查询成功
SFO1=SFO[(SFO['TRANSACTION']=='ARR') & (SFO['AIRLINE']=='Singapore Airlines')]




各种查询到这里应该差不多了。睡下下。