MW.ZHANG | 锱铢人生路

2020年5月6日星期三

about SFO data, group by 用法

关于Groupby的用法，看来是必须掌握的。
首先本以为可以直接使用df.get_group，但是不行
必须要先

sfo_groupdata=sfo.groupby(['TRANSACTION'])

然后再作一个for loop 打印出每一个值

for TRANSACTION, TRANSACTION_df in sfo_groupdata:
print(TRANSACTION)
print(TRANSACTION_df)

这样就可以列表出来了，然后再使用get_group这个方法，就可以调出来所有AIR CHINA的数据了

airchina = sfo_groupdata.get_group('AIR CHINA')
airchina

用下面的describe()列举出全部的相关的参数

airchina.describe()

TIME	FLIGHT_NUMBER	TRANSACTION	TERMINAL	GATE	REMARK
count	3488	3488	3488	3488	3450	177
unique	3488	5	2	1	12	4
top	09/29/2015 02:38:00 PM	CA985	ARR	I	G99	Closed
freq	1	1608	1744	3488	2725	97

Count: 表示AirChina出现的次数
uniqe: 表示出现的唯一次数
top: 最上面的一次出现的次数

2020年5月4日星期一

pivot_ui(pivot_data) 解决了 jupyter notebook drop&drag 图表的问题

from pivottablejs import pivot_ui
pivot_ui(df)

没有用到的话，尽快pip install 一个

2020年5月3日星期日

pandas pivot table explained

Jupyter Notebook 攻略 - SFO机场的数据处理

上个星期五收到了一个面试的通知，兴奋得不得了，已经投了一年的简历在这家公司。今天终于算是有结果了，可是一切美梦终成为镜花泡影。只因为这次面试。这也激发了我痛下决心，在数据处理和挖掘方面要深入学习。以前，个人觉得数据的处理已经可以登峰造极了。Excel pivot 结合VBA调用SQL数据库，还有什么做不到的。现在看来应了那句老话，水浅王八多。

面试assigment 1:

下载三藩市机场的数据，然后对数据进行处理，根据数据给出机场运营建议。看了题之后，我都要笑出声来了。结果，下载了数据一看。excel停留在100万行左右，错误信息显示，当前数据可能无法显示完全。手抖+心慌。剩下的就不说了，等下次机会吧。

赶紧别说别的了，抓紧学起来。

首先jupyter 安装起来

打开jupyter,导入panda

import pandas as pd

打开CSV的数据

sfo=pd.read_csv("C:\Users\mingwei.zhang\Downloads\SFO_gate.csv")

列出

如果想针对某一列的数据进行筛选的话，以下是针对Remark列下面的所有飞机起飞时间进行筛选结果。

如果是想筛选非空的数据的话 sfo[sfo[u'REMARK'].notnull()]

如果想对数据排列的话，sfo[sfo[u'REMARK'].notnull()].sort_values(by='AIRLINE')

如果需要查询两个条件以上的话，最好是给出新的命名，否则可能不会查询成功

SFO1=SFO[(SFO['TRANSACTION']=='ARR') & (SFO['AIRLINE']=='Singapore Airlines')]

各种查询到这里应该差不多了。睡下下。