개요
머신러닝에서 근간이 되는 정보를 Features 라고 한다. Feature는 연속적일 수도, binary일 수도 아니면 discontinuous할 수도 있다. 한 데이터의 Feature의 개수를 dimension이라고 하며, N-D의 벡터로 나타내게 된다.
피쳐(Feature)는 기계 학습과 패턴 인식의 용어이다. 관찰 대상에게서 발견된 개별적이고 측정가능한 경험적(heuristic) 속성을 말한다. 독립적인 변수를 잘 선택하는 것은 패턴 인식 상에서 분류를 위한 성공 요인이라 할 수 있다. 피쳐들은 일반적으로 수치이나, 그래프와 같은 자료 구조적인 피쳐들 또한 존재한다.
DIstance between feature vectors
Manifold된 공간에서 각각 Feature들의 원소의 중요도는 달라진다. 이러한 차이를 반영하기 위해서 중요도를 다르게 해서 거리값에 더해 주어야 하지만, 대표적인 거리측정 방법은 다음과 같이 주어진다.
Euclidean Distance
- [math]\displaystyle{ \|\mathbf{p} - \mathbf{q}\| = \sqrt{(\mathbf{p}-\mathbf{q})\cdot(\mathbf{p}-\mathbf{q})} = \sqrt{\|\mathbf{p}\|^2 + \|\mathbf{q}\|^2 - 2\mathbf{p}\cdot\mathbf{q}}. }[/math]
Manhattan Distance
[math]\displaystyle{ \mathbf{p}=(p_1,p_2,\dots,p_n)\, }[/math]과 [math]\displaystyle{ \mathbf{q}=(q_1,q_2,\dots,q_n)\, }[/math]를 공간 벡터라 할 때,
[math]\displaystyle{ d_1(\mathbf{p}, \mathbf{q}) = \|\mathbf{p} - \mathbf{q}\|_1 = \sum_{i=1}^n |p_i-q_i| }[/math]이다.
Metric Leanring
주어진 데이터에 적합한 Metric을 스스로 찾는 방식을 말한다.