본문 바로가기

전체 글

(97)
Pytorch 선형회귀(2024-06-19) 1. 단항 선형 회귀* 한 개의 입력이 들어가서 한 개의 출력이 나오는 구조  import torchimport torch.nn as nnimport torch.optim as optimimport matplotlib.pyplot as plt # 랜덤 값 고정torch.manual_seed(2024)  x_train = torch.FloatTensor([[1], [2], [3]])y_train = torch.FloatTensor([[2], [4], [6]])print(x_train, x_train.shape)print(y_train, y_train.shape)plt.figure(figsize=(6, 4))plt.scatter(x_train, y_train) # y = wx + bmodel = nn.Lin..
KMean, Silhouette Score (2024-06-18) 1. Clusters(클러스터)* 유사한 특성을 가진 개체들의 집합* 고객 분류, 유전자 분서그 이미지 분할  import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import make_blobs # 100개의 행, 3개의 정답(종속변수의 클래스가 3개로),X, y =  make_blobs(n_samples=100, centers=3,random_state=2023)   from sklearn.cluster import KMeans km = KMeans(n_clusters = 5)km.fit(X)pred = km.predict(X) sns.scatterplot(..
여러 모델 적용 후 성능 확인하기 (2024-06-18) # 종속변수(RH)를 제외한 모든 컬럼을 StandatdScaler로 정규화 시킴 from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import mean_squared_error ss = StandardScaler() X =air_df.drop('RH', axis=1)y = air_df['RH'] Xss = ss.fit_transform(X)Xss  X_train, X_test, y_train, y_test = train_test_split(Xss, y, test_size=0.2, random_state=2024)    my_predicti..
lightGBM (2024-06-18) 1. credit 데이터셋 credit_df = pd.read_csv('/content/drive/MyDrive/KDT 국비지원/6. 머신러닝과 딥러닝/Data/credit.csv')credit_df import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns    2-1. 리프 중심 히스토그램 기반 알고리즘* 트리를 균형적으로 분할하는 것이 아니라, 최대한 불균형하게 분할하는 방식* 특성들의 분포를 히스토그램으로 나타내고, 해당 히스토그램을 이용하여 빠르게 후보 분할 기준을 선택* 후보 분할 기준 중에서 최적의 분할 기준으로 선택하기 위해, 데이터 포인트들을 히스토그램에 ..
Random Forest, 하이퍼파라미터, Feature Importances 1. hotel 데이터셋 import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt  hotel_df.info()RangeIndex: 119390 entries, 0 to 119389Data columns (total 32 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 hotel 119390 non-null object 1 is_canceled ..
Scaling, Normalization, Support Vector Machine (2024-06-12) 1. 손글씨 데이터셋 from sklearn.datasets import load_digits digits = load_digits() digits.keys()dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])   import matplotlib.pyplot as plt _, axes = plt.subplots(2,5, figsize=(14,8))for i, ax in enumerate(axes.flatten()):  ax.imshow(data[i].reshape((8,8)), cmap='gray')  ax.set_title(target[i])     2. 스케일링(Scaling)* 데이터를 특..
Logistic Regression(2024-06-12) 1. hr 데이터셋 import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt hr_df = pd.read_csv('/content/drive/MyDrive/KDT 국비지원/6. 머신러닝과 딥러닝/Data/hr.csv')hr_df.head() * employee_id: 임의의 직원 아이디* department: 부서* region: 지역* education: 학력* gender: 성별* recruitment_channel: 채용 방법* no_of_trainings: 트레이닝 받은 횟수* age: 나이* previous_year_rating: 이전 년도 고과 점수* leng..
Linear Regression, MSE, MAE, RMSE(2024-06-11) 1. Rent 데이터셋 import numpy as npimport pandas as pdimport seaborn as sns  데이터 설정 rent_df = pd.read_csv('/content/drive/MyDrive/KDT 국비지원/6. 머신러닝과 딥러닝/Data/rent.csv')   rent_df.head()  rent_df.info()    round(rent_df.describe(), 2) # 소수점 2자리까지 반올림   rent_df['Rent'].sort_values()   sns.boxplot(rent_df['Rent'])   rent_df.isna().sum() # null값  확인   rent_df.dropna(subset= ['BHK']) # B..