Series (시리즈)¶

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

import pandas as pd

# dictionary -> Series
dict_data = {'a':'hello','b':np.nan,'c':3}
sr = pd.Series(dict_data)
print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    hello
b      NaN
c        3
dtype: object

# list -> Series
sr2 = pd.Series(['2020-07-15',True,5.8])
print(type(sr2))
print(sr2)

<class 'pandas.core.series.Series'>
0    2020-07-15
1          True
2           5.8
dtype: object

# 인덱스, 데이터값 확인
print(sr.index,sr2.index)
print(sr.values,sr2.values)

Index(['a', 'b', 'c'], dtype='object') RangeIndex(start=0, stop=3, step=1)
['hello' nan 3] ['2020-07-15' True 5.8]

# tuple -> Series
tuple_data = ('홍길동','남',50,False)
sr3 = pd.Series(tuple_data,index=['이름','성별','나이','결혼여부'])
print(sr3)
print()

print(sr3[0]) # == sr3['이름']
print()

print(sr3[[0,1]]) # == sr3[['이름','성별']]
print()

print(sr3[0:3]) # == sr3['이름':'나이']
print()

# print(sr3[[0:2]]) 오류남

이름        홍길동
성별          남
나이         50
결혼여부    False
dtype: object

홍길동

이름    홍길동
성별      남
dtype: object

이름    홍길동
성별      남
나이     50
dtype: object

시리즈 연산¶

student1 = pd.Series([np.nan,100,50],index=['국어','수학','영어'])
print(student1)
print()

student2 = pd.Series([20,80],index=['국어','수학'])
print(student2)
print()

# fill_value=0 덕에 비어있는 값들을 0으로 만들어줘서 연산이 가능함
st_add = student1.add(student2,fill_value=0)
st_sub = student1.sub(student2,fill_value=0)
st_mul = student1.mul(student2,fill_value=0)
st_div = student1.div(student2,fill_value=0)

# 비어있는 값들(NaN) 때문에 연산이 제대로 되지 않음
st_add2 = student1 + student2
st_sub2 = student1 - student2
st_mul2 = student1 * student2
st_div2 = student1 / student2

result = pd.DataFrame([st_add,st_add2,st_sub,st_sub2,st_mul,st_mul2,st_div,st_div2],
                      index=['+','+','-','-','*','*','/','/'])
result

국어      NaN
수학    100.0
영어     50.0
dtype: float64

국어    20
수학    80
dtype: int64

DataFrame (데이터프레임)¶

dates = pd.date_range('20200705',periods=3)
print(dates)

dict_data = {'A':0,'B':1,'C':2,'D':3}

df = pd.DataFrame([[1,2,3,4],[2,3,4,5],[3,4,5,6]],index=dates,columns=dict_data.keys())
df

DatetimeIndex(['2020-07-05', '2020-07-06', '2020-07-07'], dtype='datetime64[ns]', freq='D')

df2 = pd.DataFrame(np.arange(12).reshape(3,4),index=dates,columns=list('abcd'))
df2

df3 = pd.DataFrame({'A':1,
                    'B':pd.date_range('20200715',periods=4),
                    'C':pd.Series(3,index=list(range(4)),dtype='float'),
                    'D':pd.Categorical(['hi','my','name','is']),
                    'F':'dewy'})
df3

# DataFrame 컬럼 타입 보여줌
df3.dtypes

A             int64
B    datetime64[ns]
C           float64
D          category
F            object
dtype: object

# DataFrame에 대한 통계 정보 보여줌
df.describe()

# 전치 .T는 속성이므로 괄호() 안씀 (오류남)
df.T

df

# 정렬
df.sort_index(axis=0,ascending=False)

df.sort_index(axis=1,ascending=False)

df.sort_values(by='A',ascending=False)

cloumns, index 이름 바꾸기¶

df.columns = ['가','나','다','라']
df.index = ['a','b','c']

df

# inplace = True를 해야 원본 데이터 바뀜
df.rename(columns={'가':'a','나':'b','다':'c','라':'d'},inplace=True)
df.rename(index={'a':'A','b':'B','c':'C'},inplace=True)

df

columns, index 삭제¶

# axis=0 : 행 / axis=1 : 열
df.drop('A')

df.drop('a',axis=1)

df.drop(['b','d'],axis=1,inplace=True)
df

df4 = df
df4

columns, index 선택¶

df3

# 행(index)은 slice 사용 가능
df5 = df3[0:3]
df5

# 열(columns)은 컬럼명으로 해야함
df6 = df3[['A','C','F']]
df6

# 특정 열(컬럼) 선택
print(df3.F) # = df3['B']


# 특정 행(인덱스) 선택
df3[0:1] # 특정 행을 선택하기 위해서는 한개를 호출할지라도 반드시 범위로 표현해줘야함

0    dewy
1    dewy
2    dewy
3    dewy
Name: F, dtype: object

loc : 이름을 이용하여 선택하기¶

df2.loc['2020-07-05':'2020-07-07','a':'c'] # == df2.loc[dates[0:3],'a':'c']

print(df3.loc[0,:])

df3.loc[[0,1,2],:]

A                      1
B    2020-07-15 00:00:00
C                      3
D                     hi
F                   dewy
Name: 0, dtype: object

df2.loc[:,['a','c']]

# 특정 값 하나만 추출하기 위해서는 .at을 써도 된다.
df2.loc['2020-07-05','a'] # == df2.at['2020-07-05','a']

0

iloc : 위치를 이용하여 선택하기¶

print(df2.iloc[2]) # 인덱스 2번째 (2020-07-07) 데이터 추출
df2.iloc[0:3,2:4]

a     8
b     9
c    10
d    11
Name: 2020-07-07 00:00:00, dtype: int32

# 특정 열(컬럼)에 대해서 추출
df2.iloc[:,1:3]

# 특정 행(인덱스)에 대해서 추출
df2.iloc[0:2,:]

# 특정 위치에 대해서만 추출
df2.iloc[[0,2],[0,2]]

# 특정 값 하나만 추출하기 위해서는 .iat을 써도 된다.
df2.iloc[1,1] # == df2.iat[1,1]

5

columns, index 추가¶

# 열(컬럼) 추가
df['E']=10
df

# 행(인덱스) 추가
df.loc['K'] = 5
df

# 특정 값 바꾸기
df.iloc[0,0] = 100
df

	A	B	C	D
count	3.0	3.0	3.0	3.0
mean	2.0	3.0	4.0	5.0
std	1.0	1.0	1.0	1.0
min	1.0	2.0	3.0	4.0
25%	1.5	2.5	3.5	4.5
50%	2.0	3.0	4.0	5.0
75%	2.5	3.5	4.5	5.5
max	3.0	4.0	5.0	6.0

판다스 이해하기 - 조건문, concat, append, 그룹화, 함수적용, join (0)	2020.07.16
판다스 이해하기 - 데이터 정보 확인, 결측치, 중복 데이터, pivot (0)	2020.07.16
판다스 이해하기 - 참고 사이트 모음 (1)	2020.07.15
파일 읽고 쓰기 (0)	2020.06.15
부가적인 파이썬 이해하기 (0)	2020.06.15

공부하려고 만든 블로그

판다스 이해하기 - 시리즈, 데이터프레임 이해, 생성, loc, iloc

Series (시리즈)¶

시리즈 연산¶

DataFrame (데이터프레임)¶

cloumns, index 이름 바꾸기¶

columns, index 삭제¶

columns, index 선택¶

loc : 이름을 이용하여 선택하기¶

iloc : 위치를 이용하여 선택하기¶

columns, index 추가¶

'코딩 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바

	국어	수학	영어
+	20.0	180.00	50.0
+	NaN	180.00	NaN
-	-20.0	20.00	50.0
-	NaN	20.00	NaN
*	0.0	8000.00	0.0
*	NaN	8000.00	NaN
/	0.0	1.25	inf
/	NaN	1.25	NaN

	A	B	C	D	F
0	1	2020-07-15	3.0	hi	dewy
1	1	2020-07-16	3.0	my	dewy
2	1	2020-07-17	3.0	name	dewy
3	1	2020-07-18	3.0	is	dewy

	A	B	C	D
2020-07-05	1	2	3	4
2020-07-06	2	3	4	5
2020-07-07	3	4	5	6

	a	b	c	d
2020-07-05	0	1	2	3
2020-07-06	4	5	6	7
2020-07-07	8	9	10	11

	2020-07-05	2020-07-06	2020-07-07
A	1	2	3
B	2	3	4
C	3	4	5
D	4	5	6

	A	B	C	D
2020-07-05	1	2	3	4
2020-07-06	2	3	4	5
2020-07-07	3	4	5	6