from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

조건¶

Query 사용 and DataFrame[[컬럼명]][조건]¶

import pandas as pd

emp = pd.read_csv("c:/data/emp3.csv")
emp

emp.query('sal<=3000')
emp[emp.sal<=3000]

emp.query('job in ["SALESMAN"]')
emp[emp.job.isin(["SALESMAN"])]

emp.query('job not in ["SALESMAN"]')
emp[~emp.job.isin(['SALESMAN'])] # not in == ~

대문자 소문자 바꾸기¶

emp[['ename']] = emp['ename'].str.lower()
emp

emp[['ename']] = emp.ename.str.upper()
emp

# Series로 출력
emp['ename']

0       KING
1      BLAKE
2      CLARK
3      JONES
4     MARTIN
5      ALLEN
6     TURNER
7      JAMES
8       WARD
9       FORD
10     SMITH
11     SCOTT
12     ADAMS
13    MILLER
Name: ename, dtype: object

# DataFrame으로 출력
emp[['ename']]

합치기(concat,append)¶

new = [15, 7321, 'DEWY', 'MANAGER', np.NaN, '2020-07-16', 3000, np.nan, 50]

# index, columns는 반드시 리스트 형으로 넣어줘야함
# 참고 : https://freedata.tistory.com/53
new_df = pd.DataFrame(new,index=emp.columns,columns=['A']).T
new_df

# 데이터프레임을 데이터프레임에 넣으면 append나 concat이나 같은결과가 나온다.
emp.append(new_df,ignore_index=True)

pd.concat([emp,new_df],axis=0,ignore_index=False)

일반 리스트형을 append하면 결과값 이상하게 나옴 시리즈도 마찬가지...¶

new2 = pd.Series([15, 7321, 'DEWY', 'MANAGER', np.NaN, '2020-07-16', 3000, np.nan, 50])

emp.append(new2,ignore_index=True)
pd.concat([emp,new_df],axis=1)

그룹화(groupby)¶

emp.groupby('job').sal.sum().reset_index()

함수 적용(apply)¶

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

df.apply(lambda x: (x-x.min()) / (x.max() - x.min()))

Join¶

emp2 = emp.append(new_df,ignore_index=True)
emp2

dept = pd.read_csv("c:/data/dept.csv")
dept

pd.merge(emp2,dept,on='deptno') # default : how = 'inner'

pd.merge(emp2,dept,on='deptno',how='left')

pd.merge(emp2,dept,on='deptno',how='right')

압축(stack)¶

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

stacked = df2.stack()
stacked

first  second   
bar    one     A   -0.298864
               B    0.247955
       two     A   -0.045396
               B    0.610319
baz    one     A   -0.681461
               B   -0.217126
       two     A    0.706999
               B    0.656189
dtype: float64

stacked.unstack()

실습에 사용할 데이터 확인¶

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

import pandas as pd

df = pd.DataFrame([['a','a','b','a','b'],[1,1,1,2,2],[1,1,2,2,2]],index=['c1','c2','c3']).T
df

데이터 정보 확인¶

# 데이터프레임 크기
print(df.shape)
print()

# 데이터프레임 정보
df.info()

(5, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   c1      5 non-null      object
 1   c2      5 non-null      object
 2   c3      5 non-null      object
dtypes: object(3)
memory usage: 248.0+ bytes

특정 column을 index로 설정¶

df.set_index('c3') # == df.set_index(['c3'])

기존의 DataFrame에서 index(행) 새롭게 넣기¶

new_index = [0,1,2,3,4,5,6]
df.reindex(new_index)

# 값 채우기
df.reindex(new_index,fill_value='hello')

# 새롭게 인덱스 생성
df.reset_index()

결측치¶

new_index = [0,1,2,3,4,5,6]
df2 = df.reindex(new_index)
df2

# 결측치를 제외하고 함수 적용 (default)
print(df2.sum(axis=0,skipna=True))

# 결측치를 제외하지 않고 함수 적용
df2.sum(axis=0,skipna=False)

c2    7
c3    8
dtype: int64

c2   NaN
c3   NaN
dtype: float64

# 결측치(NaN) 확인 True: NaN / False : 결측치 x
df2.isna()
df2.isnull()

# 결측치(NaN) 채우기
df2.fillna(0)

# NaN 직전 행의 값으로 채우기
df2.fillna(method='ffill')

df3 = df2

# 행 추가
df3.loc[7] = [3,5,1]

# NaN 직후 행의 값으로 채우기
df3.fillna(method='bfill')

# 결측치(NaN) 제거
df2.dropna()

# 특정 위치 데이터 바꾸기
df2.iloc[[5],[0]] = 1
df2.loc[[6],['c1']] = 2

# NaN이 있는 column 삭제
df2.dropna(axis=1)

# column(axis=1)에 있는 데이터의 NaN 값이 3개 이상(thresh=3)이면 열 삭제
df2.dropna(axis=1,thresh=3)

중복 데이터¶

# 중복된 데이터면 True, 아니면 False
print(df.duplicated())
print()

# 중복된 데이터 개수
print(df.duplicated().sum())
print()

# 중복된 데이터 처리
df4 = df.drop_duplicates()
df4

0    False
1     True
2    False
3    False
4    False
dtype: bool

1

데이터 개수 확인¶

# 각 컬럼별 데이터 개수 확인
df.count()

c1    5
c2    5
c3    5
dtype: int64

# 각 컬럼의 고유값 개수
df.c1.value_counts()

# df.value_counts() 는 오류남

a    3
b    2
Name: c1, dtype: int64

통계 함수 적용¶

import seaborn as sns

tat = sns.load_dataset('titanic')
tat

# 합계
tat.age.sum()
tat['age'].sum()

21205.17

# 평균
tat.age.mean()
tat['age'].mean()

29.69911764705882

# 중간값
tat.age.median()
tat['age'].median()

28.0

# 최빈값
tat.age.mode()
tat['age'].mode()

0    24.0
dtype: float64

# 최소값
tat.age.min()
tat['age'].min()

0.42

# 최대값
tat.age.max()
tat['age'].max()

80.0

# 표준편차
tat.age.std()
tat['age'].std()

14.526497332334044

# 상관계수
tat.corr()

# 각 컬럼별 통계수치 확인
tat.mean()

survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

데이터 종류 확인¶

# 값의 종류
tat.age.unique()

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

# 값의 종류의 개수
tat.age.nunique()

88

# 종류별 개수
tat.age.value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: age, Length: 88, dtype: int64

pivot¶

tat.pivot_table(index='sex',columns='class',aggfunc='size')

Series (시리즈)¶

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

import pandas as pd

# dictionary -> Series
dict_data = {'a':'hello','b':np.nan,'c':3}
sr = pd.Series(dict_data)
print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    hello
b      NaN
c        3
dtype: object

# list -> Series
sr2 = pd.Series(['2020-07-15',True,5.8])
print(type(sr2))
print(sr2)

<class 'pandas.core.series.Series'>
0    2020-07-15
1          True
2           5.8
dtype: object

# 인덱스, 데이터값 확인
print(sr.index,sr2.index)
print(sr.values,sr2.values)

Index(['a', 'b', 'c'], dtype='object') RangeIndex(start=0, stop=3, step=1)
['hello' nan 3] ['2020-07-15' True 5.8]

# tuple -> Series
tuple_data = ('홍길동','남',50,False)
sr3 = pd.Series(tuple_data,index=['이름','성별','나이','결혼여부'])
print(sr3)
print()

print(sr3[0]) # == sr3['이름']
print()

print(sr3[[0,1]]) # == sr3[['이름','성별']]
print()

print(sr3[0:3]) # == sr3['이름':'나이']
print()

# print(sr3[[0:2]]) 오류남

이름        홍길동
성별          남
나이         50
결혼여부    False
dtype: object

홍길동

이름    홍길동
성별      남
dtype: object

이름    홍길동
성별      남
나이     50
dtype: object

시리즈 연산¶

student1 = pd.Series([np.nan,100,50],index=['국어','수학','영어'])
print(student1)
print()

student2 = pd.Series([20,80],index=['국어','수학'])
print(student2)
print()

# fill_value=0 덕에 비어있는 값들을 0으로 만들어줘서 연산이 가능함
st_add = student1.add(student2,fill_value=0)
st_sub = student1.sub(student2,fill_value=0)
st_mul = student1.mul(student2,fill_value=0)
st_div = student1.div(student2,fill_value=0)

# 비어있는 값들(NaN) 때문에 연산이 제대로 되지 않음
st_add2 = student1 + student2
st_sub2 = student1 - student2
st_mul2 = student1 * student2
st_div2 = student1 / student2

result = pd.DataFrame([st_add,st_add2,st_sub,st_sub2,st_mul,st_mul2,st_div,st_div2],
                      index=['+','+','-','-','*','*','/','/'])
result

국어      NaN
수학    100.0
영어     50.0
dtype: float64

국어    20
수학    80
dtype: int64

DataFrame (데이터프레임)¶

dates = pd.date_range('20200705',periods=3)
print(dates)

dict_data = {'A':0,'B':1,'C':2,'D':3}

df = pd.DataFrame([[1,2,3,4],[2,3,4,5],[3,4,5,6]],index=dates,columns=dict_data.keys())
df

DatetimeIndex(['2020-07-05', '2020-07-06', '2020-07-07'], dtype='datetime64[ns]', freq='D')

df2 = pd.DataFrame(np.arange(12).reshape(3,4),index=dates,columns=list('abcd'))
df2

df3 = pd.DataFrame({'A':1,
                    'B':pd.date_range('20200715',periods=4),
                    'C':pd.Series(3,index=list(range(4)),dtype='float'),
                    'D':pd.Categorical(['hi','my','name','is']),
                    'F':'dewy'})
df3

# DataFrame 컬럼 타입 보여줌
df3.dtypes

A             int64
B    datetime64[ns]
C           float64
D          category
F            object
dtype: object

# DataFrame에 대한 통계 정보 보여줌
df.describe()

# 전치 .T는 속성이므로 괄호() 안씀 (오류남)
df.T

df

# 정렬
df.sort_index(axis=0,ascending=False)

df.sort_index(axis=1,ascending=False)

df.sort_values(by='A',ascending=False)

cloumns, index 이름 바꾸기¶

df.columns = ['가','나','다','라']
df.index = ['a','b','c']

df

# inplace = True를 해야 원본 데이터 바뀜
df.rename(columns={'가':'a','나':'b','다':'c','라':'d'},inplace=True)
df.rename(index={'a':'A','b':'B','c':'C'},inplace=True)

df

columns, index 삭제¶

# axis=0 : 행 / axis=1 : 열
df.drop('A')

df.drop('a',axis=1)

df.drop(['b','d'],axis=1,inplace=True)
df

df4 = df
df4

columns, index 선택¶

df3

# 행(index)은 slice 사용 가능
df5 = df3[0:3]
df5

# 열(columns)은 컬럼명으로 해야함
df6 = df3[['A','C','F']]
df6

# 특정 열(컬럼) 선택
print(df3.F) # = df3['B']


# 특정 행(인덱스) 선택
df3[0:1] # 특정 행을 선택하기 위해서는 한개를 호출할지라도 반드시 범위로 표현해줘야함

0    dewy
1    dewy
2    dewy
3    dewy
Name: F, dtype: object

loc : 이름을 이용하여 선택하기¶

df2.loc['2020-07-05':'2020-07-07','a':'c'] # == df2.loc[dates[0:3],'a':'c']

print(df3.loc[0,:])

df3.loc[[0,1,2],:]

A                      1
B    2020-07-15 00:00:00
C                      3
D                     hi
F                   dewy
Name: 0, dtype: object

df2.loc[:,['a','c']]

# 특정 값 하나만 추출하기 위해서는 .at을 써도 된다.
df2.loc['2020-07-05','a'] # == df2.at['2020-07-05','a']

0

iloc : 위치를 이용하여 선택하기¶

print(df2.iloc[2]) # 인덱스 2번째 (2020-07-07) 데이터 추출
df2.iloc[0:3,2:4]

a     8
b     9
c    10
d    11
Name: 2020-07-07 00:00:00, dtype: int32

# 특정 열(컬럼)에 대해서 추출
df2.iloc[:,1:3]

# 특정 행(인덱스)에 대해서 추출
df2.iloc[0:2,:]

# 특정 위치에 대해서만 추출
df2.iloc[[0,2],[0,2]]

# 특정 값 하나만 추출하기 위해서는 .iat을 써도 된다.
df2.iloc[1,1] # == df2.iat[1,1]

5

columns, index 추가¶

# 열(컬럼) 추가
df['E']=10
df

# 행(인덱스) 추가
df.loc['K'] = 5
df

# 특정 값 바꾸기
df.iloc[0,0] = 100
df

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
0	1	7839	KING	PRESIDENT	NaN	1981-11-17 0:00	5000	NaN	10
1	2	7698	BLAKE	MANAGER	7839.0	1981-05-01 0:00	2850	NaN	30
2	3	7782	CLARK	MANAGER	7839.0	1981-05-09 0:00	2450	NaN	10
3	4	7566	JONES	MANAGER	7839.0	1981-04-01 0:00	2975	NaN	20
4	5	7654	MARTIN	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	ALLEN	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	TURNER	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
7	8	7900	JAMES	CLERK	7698.0	1981-12-11 0:00	950	NaN	30
8	9	7521	WARD	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30
9	10	7902	FORD	ANALYST	7566.0	1981-12-11 0:00	3000	NaN	20
10	11	7369	SMITH	CLERK	7902.0	1980-12-09 0:00	800	NaN	20
11	12	7788	SCOTT	ANALYST	7566.0	1982-12-22 0:00	3000	NaN	20
12	13	7876	ADAMS	CLERK	7788.0	1983-01-15 0:00	1100	NaN	20
13	14	7934	MILLER	CLERK	7782.0	1982-01-11 0:00	1300	NaN	10

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
1	2	7698	BLAKE	MANAGER	7839.0	1981-05-01 0:00	2850	NaN	30
2	3	7782	CLARK	MANAGER	7839.0	1981-05-09 0:00	2450	NaN	10
3	4	7566	JONES	MANAGER	7839.0	1981-04-01 0:00	2975	NaN	20
4	5	7654	MARTIN	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	ALLEN	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	TURNER	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
7	8	7900	JAMES	CLERK	7698.0	1981-12-11 0:00	950	NaN	30
8	9	7521	WARD	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30
9	10	7902	FORD	ANALYST	7566.0	1981-12-11 0:00	3000	NaN	20
10	11	7369	SMITH	CLERK	7902.0	1980-12-09 0:00	800	NaN	20
11	12	7788	SCOTT	ANALYST	7566.0	1982-12-22 0:00	3000	NaN	20
12	13	7876	ADAMS	CLERK	7788.0	1983-01-15 0:00	1100	NaN	20
13	14	7934	MILLER	CLERK	7782.0	1982-01-11 0:00	1300	NaN	10

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
4	5	7654	MARTIN	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	ALLEN	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	TURNER	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
8	9	7521	WARD	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
0	1	7839	king	PRESIDENT	NaN	1981-11-17 0:00	5000	NaN	10
1	2	7698	blake	MANAGER	7839.0	1981-05-01 0:00	2850	NaN	30
2	3	7782	clark	MANAGER	7839.0	1981-05-09 0:00	2450	NaN	10
3	4	7566	jones	MANAGER	7839.0	1981-04-01 0:00	2975	NaN	20
4	5	7654	martin	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	allen	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	turner	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
7	8	7900	james	CLERK	7698.0	1981-12-11 0:00	950	NaN	30
8	9	7521	ward	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30
9	10	7902	ford	ANALYST	7566.0	1981-12-11 0:00	3000	NaN	20
10	11	7369	smith	CLERK	7902.0	1980-12-09 0:00	800	NaN	20
11	12	7788	scott	ANALYST	7566.0	1982-12-22 0:00	3000	NaN	20
12	13	7876	adams	CLERK	7788.0	1983-01-15 0:00	1100	NaN	20
13	14	7934	miller	CLERK	7782.0	1982-01-11 0:00	1300	NaN	10

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
0	1	7839	KING	PRESIDENT	NaN	1981-11-17 0:00	5000	NaN	10
1	2	7698	BLAKE	MANAGER	7839.0	1981-05-01 0:00	2850	NaN	30
2	3	7782	CLARK	MANAGER	7839.0	1981-05-09 0:00	2450	NaN	10
3	4	7566	JONES	MANAGER	7839.0	1981-04-01 0:00	2975	NaN	20
4	5	7654	MARTIN	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	ALLEN	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	TURNER	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
7	8	7900	JAMES	CLERK	7698.0	1981-12-11 0:00	950	NaN	30
8	9	7521	WARD	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30
9	10	7902	FORD	ANALYST	7566.0	1981-12-11 0:00	3000	NaN	20
10	11	7369	SMITH	CLERK	7902.0	1980-12-09 0:00	800	NaN	20
11	12	7788	SCOTT	ANALYST	7566.0	1982-12-22 0:00	3000	NaN	20
12	13	7876	ADAMS	CLERK	7788.0	1983-01-15 0:00	1100	NaN	20
13	14	7934	MILLER	CLERK	7782.0	1982-01-11 0:00	1300	NaN	10

	job	sal
0	ANALYST	6000
1	CLERK	4150
2	MANAGER	8275
3	PRESIDENT	5000
4	SALESMAN	5600

	A	B	C	D
2013-01-01	0.181765	0.421731	-0.391242	-0.949458
2013-01-02	-1.293275	-0.690032	1.194403	-0.189533
2013-01-03	0.471382	1.351683	0.648124	-0.128018
2013-01-04	-0.748874	-0.648833	-0.393539	0.435896
2013-01-05	0.098486	-2.092289	1.048243	-1.068479
2013-01-06	-1.919552	1.020284	0.426926	-0.297642

	A	B	C	D
2013-01-01	0.878869	0.729977	0.001447	0.079117
2013-01-02	0.261938	0.407163	1.000000	0.584260
2013-01-03	1.000000	1.000000	0.655983	0.625151
2013-01-04	0.489632	0.419125	0.000000	1.000000
2013-01-05	0.844038	0.000000	0.907956	0.000000
2013-01-06	0.000000	0.903774	0.516685	0.512397

	deptno	dname	loc
0	10	ACCOUNTING	NEW YORK
1	20	RESEARCH	DALLAS
2	30	SALES	CHICAGO
3	40	OPERATIONS	BOSTON

		A	B
first	second
bar	one	-0.298864	0.247955
bar	two	-0.045396	0.610319
baz	one	-0.681461	-0.217126
baz	two	0.706999	0.656189

판다스 이해하기 - 시리즈에서 문자열 조작하기 (0)	2020.07.20
판다스 이해하기 - 분할, 더미변수, 문자형 날짜형 변환 (0)	2020.07.16
판다스 이해하기 - 데이터 정보 확인, 결측치, 중복 데이터, pivot (0)	2020.07.16
판다스 이해하기 - 시리즈, 데이터프레임 이해, 생성, loc, iloc (0)	2020.07.15
판다스 이해하기 - 참고 사이트 모음 (1)	2020.07.15

	c1	c2	c3
0	False	False	False
1	False	False	False
2	False	False	False
3	False	False	False
4	False	False	False
5	True	True	True
6	True	True	True

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	0	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	0	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	0	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
886	0	2	male	27.0	0	0	13.0000	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.0000	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	NaN	1	2	23.4500	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.0000	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.7500	Q	Third	man	True	NaN	Queenstown	no	True

	survived	pclass	age	sibsp	parch	fare	adult_male	alone
survived	1.000000	-0.338481	-0.077221	-0.035322	0.081629	0.257307	-0.557080	-0.203367
pclass	-0.338481	1.000000	-0.369226	0.083081	0.018443	-0.549500	0.094035	0.135207
age	-0.077221	-0.369226	1.000000	-0.308247	-0.189119	0.096067	0.280328	0.198270
sibsp	-0.035322	0.083081	-0.308247	1.000000	0.414838	0.159651	-0.253586	-0.584471
parch	0.081629	0.018443	-0.189119	0.414838	1.000000	0.216225	-0.349943	-0.583398
fare	0.257307	-0.549500	0.096067	0.159651	0.216225	1.000000	-0.182024	-0.271832
adult_male	-0.557080	0.094035	0.280328	-0.253586	-0.349943	-0.182024	1.000000	0.404744
alone	-0.203367	0.135207	0.198270	-0.584471	-0.583398	-0.271832	0.404744	1.000000

판다스 이해하기 - 분할, 더미변수, 문자형 날짜형 변환 (0)	2020.07.16
판다스 이해하기 - 조건문, concat, append, 그룹화, 함수적용, join (0)	2020.07.16
판다스 이해하기 - 시리즈, 데이터프레임 이해, 생성, loc, iloc (0)	2020.07.15
판다스 이해하기 - 참고 사이트 모음 (1)	2020.07.15
파일 읽고 쓰기 (0)	2020.06.15

	국어	수학	영어
+	20.0	180.00	50.0
+	NaN	180.00	NaN
-	-20.0	20.00	50.0
-	NaN	20.00	NaN
*	0.0	8000.00	0.0
*	NaN	8000.00	NaN
/	0.0	1.25	inf
/	NaN	1.25	NaN

	A	B	C	D	F
0	1	2020-07-15	3.0	hi	dewy
1	1	2020-07-16	3.0	my	dewy
2	1	2020-07-17	3.0	name	dewy
3	1	2020-07-18	3.0	is	dewy

	A	B	C	D
count	3.0	3.0	3.0	3.0
mean	2.0	3.0	4.0	5.0
std	1.0	1.0	1.0	1.0
min	1.0	2.0	3.0	4.0
25%	1.5	2.5	3.5	4.5
50%	2.0	3.0	4.0	5.0
75%	2.5	3.5	4.5	5.5
max	3.0	4.0	5.0	6.0

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공부하려고 만든 블로그

코딩/Python

판다스 이해하기 - 조건문, concat, append, 그룹화, 함수적용, join

조건¶

Query 사용 and DataFrame[[컬럼명]][조건]¶

대문자 소문자 바꾸기¶

합치기(concat,append)¶

일반 리스트형을 append하면 결과값 이상하게 나옴 시리즈도 마찬가지...¶

그룹화(groupby)¶

함수 적용(apply)¶

Join¶

압축(stack)¶

'코딩 > Python' 카테고리의 다른 글

판다스 이해하기 - 데이터 정보 확인, 결측치, 중복 데이터, pivot

실습에 사용할 데이터 확인¶

데이터 정보 확인¶

특정 column을 index로 설정¶

기존의 DataFrame에서 index(행) 새롭게 넣기¶

결측치¶

중복 데이터¶

데이터 개수 확인¶

통계 함수 적용¶

데이터 종류 확인¶

pivot¶

'코딩 > Python' 카테고리의 다른 글

판다스 이해하기 - 시리즈, 데이터프레임 이해, 생성, loc, iloc

Series (시리즈)¶

시리즈 연산¶

DataFrame (데이터프레임)¶

cloumns, index 이름 바꾸기¶

columns, index 삭제¶

columns, index 선택¶

loc : 이름을 이용하여 선택하기¶

iloc : 위치를 이용하여 선택하기¶

columns, index 추가¶

'코딩 > Python' 카테고리의 다른 글

판다스 이해하기 - 참고 사이트 모음

참고 사이트

'코딩 > Python' 카테고리의 다른 글

파일 읽고 쓰기

'코딩 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역