강의 복습
pandas
구조화된 데이터 처리를 지원하는 python 라이브러리(panel data)
API reference — pandas 2.1.2 documentation
- 테이블 형태의 데이터 = data table / sample
- 데이터 상단의 첫 줄 = attribute / field / feature / column
- 한 줄 = data instance / row / tuple
- 세로 줄 = feature vector
- 데이터 하나 = 값 / value / data
- 문법
몬테카를로 샘플링
- 확률 분포를 명시적으로 모를때, 데이터를 이용해 기대값을 계산하는 방법
- 독립추출이 보장되면 대수의 법칙에 의해 수렴성 보장
- 샘플값이 적어지면 오차범위가 커지므로 적절한 샘플링 개수 설정
$$
E_{X~P(x)}[f(x)] \approx \frac1N \sum_{i=1}^Nf(x^{(i)}, x^{i} \approx^{i.i.d} P(x)
$$
모수 추정
- 유한한 개수의 데이터 관찰만으로 모집단의 분포를 정확하게 파악 불가능
- 데이터와 추정방법의 불확실성을 고려해 위험을 최소화하는 것이 목적(근사적으로 확률분포 추정)
- 모수적 방법론(parametric)
데이터가 특정 확률분포를 따른다고 선험적(a priori)으로 가정, 그 분포를 결정하는 모수(parameter)를 추정하는 방법
- 비모수 방법론(nonparametric)
특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜
기계학습의 대부분 방법론이 이러함
모수가 무한히 많거나 모수가 데이터에 따라 바뀌는 것