분할¶

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

import pandas as pd

emp = pd.read_csv("c:/data/emp3.csv")
emp

count, bin_dividers = np.histogram(emp.sal,bins=3)
print(count)
print(bin_dividers) # 경계값 리스트

[8 5 1]
[ 800. 2200. 3600. 5000.]

bin_names = ['저소득','중간소득','고소득']
emp['sal_divide'] = pd.cut(x=emp.sal,bins=bin_dividers,labels=bin_names)
emp

더미변수¶

pd.get_dummies(emp.deptno)

문자형을 날짜형으로 변환¶

df = pd.read_csv("c:/data/studyfile/stock-data.csv")
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB
None

df[['Date']] = pd.to_datetime(df.Date)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Date    20 non-null     datetime64[ns]
 1   Close   20 non-null     int64         
 2   Start   20 non-null     int64         
 3   High    20 non-null     int64         
 4   Low     20 non-null     int64         
 5   Volume  20 non-null     int64         
dtypes: datetime64[ns](1), int64(5)
memory usage: 1.1 KB

df.Date.dt.year.tail()

15    2018
16    2018
17    2018
18    2018
19    2018
Name: Date, dtype: int64

df.Date.dt.month.head()

0    7
1    6
2    6
3    6
4    6
Name: Date, dtype: int64

df.Date.dt.day.head()

0     2
1    29
2    28
3    27
4    26
Name: Date, dtype: int64

인덱스를 날짜형으로 만들기¶

df.set_index('Date',inplace=True)
df

df.index

DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='Date', freq=None)

df.index.year

Int64Index([2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018,
            2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018],
           dtype='int64', name='Date')

df.index.month

Int64Index([7, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6], dtype='int64', name='Date')

df.index.day

Int64Index([2, 29, 28, 27, 26, 25, 22, 21, 20, 19, 18, 15, 14, 12, 11, 8, 7, 5,
            4, 1],
           dtype='int64', name='Date')

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important;}</style>"))

조건¶

Query 사용 and DataFrame[[컬럼명]][조건]¶

import pandas as pd

emp = pd.read_csv("c:/data/emp3.csv")
emp

emp.query('sal<=3000')
emp[emp.sal<=3000]

emp.query('job in ["SALESMAN"]')
emp[emp.job.isin(["SALESMAN"])]

emp.query('job not in ["SALESMAN"]')
emp[~emp.job.isin(['SALESMAN'])] # not in == ~

대문자 소문자 바꾸기¶

emp[['ename']] = emp['ename'].str.lower()
emp

emp[['ename']] = emp.ename.str.upper()
emp

# Series로 출력
emp['ename']

0       KING
1      BLAKE
2      CLARK
3      JONES
4     MARTIN
5      ALLEN
6     TURNER
7      JAMES
8       WARD
9       FORD
10     SMITH
11     SCOTT
12     ADAMS
13    MILLER
Name: ename, dtype: object

# DataFrame으로 출력
emp[['ename']]

합치기(concat,append)¶

new = [15, 7321, 'DEWY', 'MANAGER', np.NaN, '2020-07-16', 3000, np.nan, 50]

# index, columns는 반드시 리스트 형으로 넣어줘야함
# 참고 : https://freedata.tistory.com/53
new_df = pd.DataFrame(new,index=emp.columns,columns=['A']).T
new_df

# 데이터프레임을 데이터프레임에 넣으면 append나 concat이나 같은결과가 나온다.
emp.append(new_df,ignore_index=True)

pd.concat([emp,new_df],axis=0,ignore_index=False)

일반 리스트형을 append하면 결과값 이상하게 나옴 시리즈도 마찬가지...¶

new2 = pd.Series([15, 7321, 'DEWY', 'MANAGER', np.NaN, '2020-07-16', 3000, np.nan, 50])

emp.append(new2,ignore_index=True)
pd.concat([emp,new_df],axis=1)

그룹화(groupby)¶

emp.groupby('job').sal.sum().reset_index()

함수 적용(apply)¶

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

df.apply(lambda x: (x-x.min()) / (x.max() - x.min()))

Join¶

emp2 = emp.append(new_df,ignore_index=True)
emp2

dept = pd.read_csv("c:/data/dept.csv")
dept

pd.merge(emp2,dept,on='deptno') # default : how = 'inner'

pd.merge(emp2,dept,on='deptno',how='left')

pd.merge(emp2,dept,on='deptno',how='right')

압축(stack)¶

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

stacked = df2.stack()
stacked

first  second   
bar    one     A   -0.298864
               B    0.247955
       two     A   -0.045396
               B    0.610319
baz    one     A   -0.681461
               B   -0.217126
       two     A    0.706999
               B    0.656189
dtype: float64

stacked.unstack()

21. CNN (합성곱 신경망) (2)	2020.08.07
20. 배치 정규화 (Batch Normalization), 과적합 (Overfitting) (0)	2020.08.06
18. 다양한 최적화 알고리즘 (0)	2020.08.06
17. 오차 역전파 (Backpropagation) (1)	2020.08.05
16. 배치(Batch), 미니배치 학습, 에폭(Epoch), SGD (3)	2020.08.04

20. 배치 정규화 (Batch Normalization), 과적합 (Overfitting) (0)	2020.08.06
19. 가중치 초깃값 (0)	2020.08.06
17. 오차 역전파 (Backpropagation) (1)	2020.08.05
16. 배치(Batch), 미니배치 학습, 에폭(Epoch), SGD (3)	2020.08.04
15. 항등함수와 Softmax 함수 (2)	2020.08.03

19. 가중치 초깃값 (0)	2020.08.06
18. 다양한 최적화 알고리즘 (0)	2020.08.06
16. 배치(Batch), 미니배치 학습, 에폭(Epoch), SGD (3)	2020.08.04
15. 항등함수와 Softmax 함수 (2)	2020.08.03
14. 다층퍼셉트론 / Sigmoid / ReLU (0)	2020.07.01

18. 다양한 최적화 알고리즘 (0)	2020.08.06
17. 오차 역전파 (Backpropagation) (1)	2020.08.05
15. 항등함수와 Softmax 함수 (2)	2020.08.03
14. 다층퍼셉트론 / Sigmoid / ReLU (0)	2020.07.01
13. Perceptron (퍼셉트론) (0)	2019.09.14

17. 오차 역전파 (Backpropagation) (1)	2020.08.05
16. 배치(Batch), 미니배치 학습, 에폭(Epoch), SGD (3)	2020.08.04
14. 다층퍼셉트론 / Sigmoid / ReLU (0)	2020.07.01
13. Perceptron (퍼셉트론) (0)	2019.09.14
12. Clustering (0)	2019.09.13

tqdm 사용하기 (0)	2020.12.02
PyMuPDF : pdf2image (0)	2020.12.02
판다스 이해하기 - 분할, 더미변수, 문자형 날짜형 변환 (0)	2020.07.16
판다스 이해하기 - 조건문, concat, append, 그룹화, 함수적용, join (0)	2020.07.16
판다스 이해하기 - 데이터 정보 확인, 결측치, 중복 데이터, pivot (0)	2020.07.16

	index	empno	ename	job	mgr	hiredate	sal	comm	deptno
0	1	7839	KING	PRESIDENT	NaN	1981-11-17 0:00	5000	NaN	10
1	2	7698	BLAKE	MANAGER	7839.0	1981-05-01 0:00	2850	NaN	30
2	3	7782	CLARK	MANAGER	7839.0	1981-05-09 0:00	2450	NaN	10
3	4	7566	JONES	MANAGER	7839.0	1981-04-01 0:00	2975	NaN	20
4	5	7654	MARTIN	SALESMAN	7698.0	1981-09-10 0:00	1250	1400.0	30
5	6	7499	ALLEN	SALESMAN	7698.0	1981-02-11 0:00	1600	300.0	30
6	7	7844	TURNER	SALESMAN	7698.0	1981-08-21 0:00	1500	0.0	30
7	8	7900	JAMES	CLERK	7698.0	1981-12-11 0:00	950	NaN	30
8	9	7521	WARD	SALESMAN	7698.0	1981-02-23 0:00	1250	500.0	30
9	10	7902	FORD	ANALYST	7566.0	1981-12-11 0:00	3000	NaN	20
10	11	7369	SMITH	CLERK	7902.0	1980-12-09 0:00	800	NaN	20
11	12	7788	SCOTT	ANALYST	7566.0	1982-12-22 0:00	3000	NaN	20
12	13	7876	ADAMS	CLERK	7788.0	1983-01-15 0:00	1100	NaN	20
13	14	7934	MILLER	CLERK	7782.0	1982-01-11 0:00	1300	NaN	10

	10	20	30
0	1	0	0
1	0	0	1
2	1	0	0
3	0	1	0
4	0	0	1
5	0	0	1
6	0	0	1
7	0	0	1
8	0	0	1
9	0	1	0
10	0	1	0
11	0	1	0
12	0	1	0
13	1	0	0

	Date	Close	Start	High	Low	Volume
0	2018-07-02	10100	10850	10900	10000	137977
1	2018-06-29	10700	10550	10900	9990	170253
2	2018-06-28	10400	10900	10950	10150	155769
3	2018-06-27	10900	10800	11050	10500	133548
4	2018-06-26	10800	10900	11000	10700	63039

	Close	Start	High	Low	Volume
Date
2018-07-02	10100	10850	10900	10000	137977
2018-06-29	10700	10550	10900	9990	170253
2018-06-28	10400	10900	10950	10150	155769
2018-06-27	10900	10800	11050	10500	133548
2018-06-26	10800	10900	11000	10700	63039
2018-06-25	11150	11400	11450	11000	55519
2018-06-22	11300	11250	11450	10750	134805
2018-06-21	11200	11350	11750	11200	133002
2018-06-20	11550	11200	11600	10900	308596
2018-06-19	11300	11850	11950	11300	180656
2018-06-18	12000	13400	13400	12000	309787
2018-06-15	13400	13600	13600	12900	201376
2018-06-14	13450	13200	13700	13150	347451
2018-06-12	13200	12200	13300	12050	558148
2018-06-11	11950	12000	12250	11950	62293
2018-06-08	11950	11950	12200	11800	59258
2018-06-07	11950	12200	12300	11900	49088
2018-06-05	12150	11800	12250	11800	42485
2018-06-04	11900	11900	12200	11700	25171
2018-06-01	11900	11800	12100	11750	32062

PyMuPDF : pdf2image (0)	2020.12.02
판다스 이해하기 - 시리즈에서 문자열 조작하기 (0)	2020.07.20
판다스 이해하기 - 조건문, concat, append, 그룹화, 함수적용, join (0)	2020.07.16
판다스 이해하기 - 데이터 정보 확인, 결측치, 중복 데이터, pivot (0)	2020.07.16
판다스 이해하기 - 시리즈, 데이터프레임 이해, 생성, loc, iloc (0)	2020.07.15

	job	sal
0	ANALYST	6000
1	CLERK	4150
2	MANAGER	8275
3	PRESIDENT	5000
4	SALESMAN	5600

	A	B	C	D
2013-01-01	0.181765	0.421731	-0.391242	-0.949458
2013-01-02	-1.293275	-0.690032	1.194403	-0.189533
2013-01-03	0.471382	1.351683	0.648124	-0.128018
2013-01-04	-0.748874	-0.648833	-0.393539	0.435896
2013-01-05	0.098486	-2.092289	1.048243	-1.068479
2013-01-06	-1.919552	1.020284	0.426926	-0.297642

	A	B	C	D
2013-01-01	0.878869	0.729977	0.001447	0.079117
2013-01-02	0.261938	0.407163	1.000000	0.584260
2013-01-03	1.000000	1.000000	0.655983	0.625151
2013-01-04	0.489632	0.419125	0.000000	1.000000
2013-01-05	0.844038	0.000000	0.907956	0.000000
2013-01-06	0.000000	0.903774	0.516685	0.512397

	deptno	dname	loc
0	10	ACCOUNTING	NEW YORK
1	20	RESEARCH	DALLAS
2	30	SALES	CHICAGO
3	40	OPERATIONS	BOSTON

	10	20	30
0	1	0	0
1	0	0	1
2	1	0	0
3	0	1	0
4	0	0	1
5	0	0	1
6	0	0	1
7	0	0	1
8	0	0	1
9	0	1	0
10	0	1	0
11	0	1	0
12	0	1	0
13	1	0	0

		A	B
first	second
bar	one	-0.298864	0.247955
bar	two	-0.045396	0.610319
baz	one	-0.681461	-0.217126
baz	two	0.706999	0.656189

전체 글

'인공지능 > 인공지능 이론' 카테고리의 다른 글

'인공지능 > 인공지능 이론' 카테고리의 다른 글

국소적 계산

연쇄법칙

일반 연산(덧셈, 곳셈) 노드의 역전파

활성화 함수 역전파

Affine 계층

배치(Batch)용 Affine 계층

출력층 활성화 함수의 역전파

'인공지능 > 인공지능 이론' 카테고리의 다른 글

배치(Batch)

에폭 (Epoch)

확률적 경사 하강법 (SGD : Stochastic Gradient Descent)

'인공지능 > 인공지능 이론' 카테고리의 다른 글

'인공지능 > 인공지능 이론' 카테고리의 다른 글

'코딩 > Python' 카테고리의 다른 글

분할¶

더미변수¶

문자형을 날짜형으로 변환¶

인덱스를 날짜형으로 만들기¶

'코딩 > Python' 카테고리의 다른 글

조건¶

Query 사용 and DataFrame[[컬럼명]][조건]¶

대문자 소문자 바꾸기¶

합치기(concat,append)¶

일반 리스트형을 append하면 결과값 이상하게 나옴 시리즈도 마찬가지...¶

그룹화(groupby)¶

함수 적용(apply)¶

Join¶

압축(stack)¶

'코딩 > Python' 카테고리의 다른 글

티스토리툴바

	10	20	30
0	1	0	0
1	0	0	1
2	1	0	0
3	0	1	0
4	0	0	1
5	0	0	1
6	0	0	1
7	0	0	1
8	0	0	1
9	0	1	0
10	0	1	0
11	0	1	0
12	0	1	0
13	1	0	0