본문 바로가기
728x90

전공22

[ML] 피쳐(Featrue)와 샘플(Sample)의 차이 훈련 데이터의 입력 행렬을 X라고 하였을 때 샘플(Sample)과 특성(Feature)의 정의는 다음과 같음  머신 러닝에서는 데이터를 셀 수 있는 단위로 구분할 때, 각각을 샘플이라고 부르며, 종속 변수 y를 예측하기 위한 각각의 독립 변수 x를 특성이라고 부릅니다. 쉽게 말하면, 피처는 각 샘플이 가지는 속성 또는 특성이며 샘플은 피처 값들의 집합으로 이루어진 하나의 관측값 또는 데이터 포인트를 의미 개념피쳐샘플정의각 샘플이 가지는 속성 또는 특성피쳐 값들의 집합으로 이루어진 데이터 포인트구조데이터셋의 열데이터셋의 행예시 키, 몸무게, 나이한 사람의 정보(키, 몸무게, 나이)역할모델의 입력 값모델이 예측하고자 하는 대상 2024. 11. 7.
[ML] 다중 선형 회귀 다중 선형 회귀다수의 x로부터 y를 예측하는 회귀 독립 변수 x의 개수가 3개라면,$$ H(x) = w_1x_1 + w_2x_2 + w_3x_3 + b$$ # 훈련 데이터x1_train = torch.FloatTensor([[73], [93], [89], [96], [73]])x2_train = torch.FloatTensor([[80], [88], [91], [98], [66]])x3_train = torch.FloatTensor([[75], [93], [90], [100], [70]])y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])# 가중치 w와 편향 b 초기화w1 = torch.zeros(1, requires_grad=True)w2.. 2024. 11. 7.
[ML] 선형 회귀와 자동 미분 선형 회귀선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선을 찾는 일 이때 선형 회귀의 가설(직선의 방정식)은 아래와 같은 형식$$ y= Wx + b $$ 가설의 H를 따서 y 대신 다음과 같이 식을 표현$$ H(x) = Wx + b $$ 이때 x와 곱해지는 W를 가중치(Weight)라고 하며, b를 편향(bias)이라고 함 비용 함수비용 함수(cost function)  = 손실 함수(loss function)  = 오차 함수(error function)  = 목적 함수(objective function) 수식적으로 단순히 '오차 = 실제값 - 예측값'으로 정의하면 오차값이 음수가 나오는 경우가 생김제대로 된 오차의 크기를 측정할 수 없으므로, 각 오차를 제곱해준 뒤에 전부 더함 $$ cost(W,.. 2024. 11. 7.
[ML] K-NN(K-Neighbor Nearest)이란? KNN, K-최근접 이웃 알고리즘 KNN은 새로운 입력과 현재 데이터 중 가장 가까운 K개의 데이터를 찾아 가장 많은 분류 값으로 분류특징지도학습유클리디안 거리 사용k는 보통 홀수를 많이 사용 "가장 가까운"이라는 개념은 현실의 3차원이 아닌 그 이상의 N차원의 일반적인 데이터에서 어떻게 정의할까? 우리의 눈으로 확인할 수 없을 뿐, 거리 계산은 동일하게 벡터 공간에서 두 벡터의 유클리디안 거리를 기반으로 계산  $$ dist =  \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2 }$$ 장점이중, 다중 분류 다 적용 가능수치형 레이블에 대해서 높은 정확도단점속도가 느림하나의 예측을 진행할 때마다 전체 데이터와 비교하기 때문에 연산 횟수 증가이상치에 민감 예시 .. 2024. 4. 2.
728x90