본문 바로가기

딥러닝과 머신러닝

타이타닉 데이터셋(2024-06-10)

 1. 캐글(Kaggle)

* 구글에서 운영하는 전세계 AI개발자, 데이터 사이언티스트들이 데이터를 분석하고 토론할 수 있는 자료 등을 제공
* 데이터 분석 및 머신러닝, 딥러닝 대회를 개최
* 데이터셋, 파이썬자료, R 자료 등을 제공
* [캐글 사이트](https://kaggle.com)

 

 2. 데이콘(Dacon)

* 국내 최초 AI 해커톤 플랫폼
* 전문 인력 채용과 학습을 할 수 있는 여러가지 AI 자료 등을 제공
* [데이콘](https://dacon.io/)
 

 3. AI허브

* 한국지능정보사회진흥원이 운영하는 AI통합 플랫폼
* AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 제공

 

 4. 타이타닉 데이터

 

 

 5. 데이터 전처리

* 데이터 정제 작업을 뜻함
* 필요없는 데이터를 삭제하고, null이 있는 행을 처리하고, 정규화/표준화 등의 많은 작업들을 포함
* 머신러닝, 딥러닝 실무에서 전처리가 차지하는 중요도는 50% 이상이라고 봄
 

 

 

 결측치 처리

 라벨 인코딩(Label Encoding)

* 문자(Categorical)를 수치(Numerical)로 변환

 

 

 원 핫 인코딩(One Hot Encoding)

* 독립적인 데이터는 별도의 컬럼으로 분리하고 각각의 컬럼에 해당 값에만1, 나머지는 0의 값을 갖게하는 방법

'딥러닝과 머신러닝' 카테고리의 다른 글

Logistic Regression(2024-06-12)  (1) 2024.06.12
Linear Regression, MSE, MAE, RMSE(2024-06-11)  (0) 2024.06.11
iris-data (2024-06-10)  (0) 2024.06.10
Scikit-Learn(2024-06-10)  (0) 2024.06.10
머신 러닝 정의 (2024-06-10)  (0) 2024.06.10