10. 중복값 제거하기
11. 데이터프레임 합치기
12. 등수 매기기
rank() : 브랜드순위 생성(내림차순) # 20.0 , 19.0, 18.0 ...
ascending=False : 오름차순 # 1.0, 2.0, 3.0 ...
astype(int) : 실수 -> 정수로 변경 # 1, 2, 3 ...
13. 날짜타입 사용하기
14. apply 사용하기
* Series나 DataFrame에 구체적인 로직을 적용하고 싶을 때 사용
* apply를 적용하기 위해서는 별도의 함수를 먼저 정의해야 함
* 작성된 함수를 apply에 매개변수로 전달함
15. map 사용하기
* 딕셔너리를 통해 데이터와 같은 키의 값을 적용
16. 데이터프레임의 산술연산
17.select_dtypes
18.원 핫 인코딩(One Hot Encoding)
* 원 핫 인코딩은 한개의 요소는 1, 나머지 요소는 0으로 만들어 카테고리형을 표현하는 방법
* 예) df['혈액형']
* 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 한다면 라벨 인코딩을 하여 수치 데이터로 변환
* 컴퓨터는 값 들간의 관계를 스스로 형성하게 될 수 있음
* 만약 B형은 1, AB형이 2라는 값을 가지고 있다면 컴퓨터는 'B형 + AB형 = O형' 라는 이상한 관계를 맺을 수 있음
* 별도의 column들을 형성해주고 1개의 column에는 1, 나머지 column에는 0으로 넣어줌으로 'A,B,AB,O'형의 관계는 서 로 독립적이다' 라는 카테고리로 표현하는 방식을 원 핫 인코딩이라 한다
'데이터 분석' 카테고리의 다른 글
온라인 쇼핑몰 데이터 활용 (2024-05-27) (0) | 2024.05.27 |
---|---|
Matplotlib (2024-05-27) (0) | 2024.05.27 |
Pandas, Series, DataFrame (2024-05-23) (0) | 2024.05.23 |
Numpy (2024-05-22) (0) | 2024.05.22 |
과제 여러개 파일 수집 (2024-05-22) (0) | 2024.05.22 |