데이터 증대(data augmentation) 또는 데이터 첨가, 데이터 증강은 주로 기계 학습을 위해 새로운 데이터를 첨가하거나, 수를 늘리는 기법이다. 과대표집(oversampling)과 관련이 있다. 정칙화 기능을 하여 기계 학습 모델을 훈련할 때 과적합을 줄이는 데에 도움이 된다.[1]
통계학적 방법
일반적인 통계값에 대해서는 랜덤 과대표집이나, 아니면 여러 데이터 포인트를 조합하는 방법으로 쉽게 데이터를 증대할 수 있다.
딥 러닝
이미지는 아주 큰 차원을 가진 데이터이기 때문에, 같은 종류의 대상을 찍은 사진 2개를 평균낸다고 해서 새로운 같은 종류의 사진이 되지 않는다. 그래서 이미지를 변형하거나, 아니면 생성적 적대 신경망이나 오토인코더를 이용해서 새 이미지를 만들 수 있다.
↑Shorten, Connor; Khoshgoftaar, Taghi M. (2019). “A survey on Image Data Augmentation for Deep Learning”. 《Mathematics and Computers in Simulation》 (springer) 6: 60. doi:10.1186/s40537-019-0197-0.