생성형 인공지능(生成型人工智能, generative artificial intelligence) 또는 생성형 AI(generative AI)는 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 일종의 인공지능(AI) 시스템이다.[1][2] 생성형 AI는 입력 트레이닝 데이터의 패턴과 구조를 학습한 다음 유사 특징이 있는 새로운 데이터를 만들어낸다.[3][4]
생성형 AI는 예술, 작문, 소프트웨어 개발, 의료, 금융, 게이밍, 마케팅, 패션을 포함한 다양한 산업 부문에 걸쳐 잠재적으로 응용된다.[8][9] 생성형 AI의 투자는 2020년대 초에 급증했으며 마이크로소프트, 구글, 바이두와 같은 대기업들과 생성형 AI 모델을 개발하는 수많은, 규모가 더 작은 기업들이 참여했다.[1][10][11] 그러나 생성형 AI의 잠재적 오용에 대한 우려도 있는데, 예를 들어 사람을 속이기 위해 사용할 수 있는 가짜뉴스나 딥페이크를 만드는 것을 들 수 있다.[12]
기계 학습 분야는 창립 이래 생성 모델을 포함한 통계 모델을 사용하여 데이터를 모델링하고 예측해 왔다. 2000년대 후반부터 딥 러닝의 출현은 이미지 및 비디오 처리, 텍스트 분석, 음성 인식 및 기타 작업의 발전과 연구를 주도했다. 그러나 대부분의 심층 신경망은 컨벌루션 신경망 기반 이미지 분류와 같은 분류 작업을 수행하는 판별 모델로 훈련되었다.
2014년에는 배리에이셔널 오토인코더(Variational Autoencoder) 및 생성형 적대 신경망(Generative Adversarial Network)과 같은 발전을 통해 이미지와 같은 복잡한 데이터의 판별 모델이 아닌 생성형 모델을 학습할 수 있는 최초의 실용적인 심층 신경망이 탄생했다. 이러한 심층 생성 모델은 이미지에 대한 클래스 레이블뿐만 아니라 전체 이미지를 출력할 수 있는 최초의 모델이다.
2017년에 변환기 네트워크는 생성형 모델의 발전을 가능하게 하여 2018년에 사전 훈련된 제너레이티브 트랜스포머를 처음으로 선보였다.[13] 그 뒤를 이어 2019년에는 GPT-2가 비지도 학습을 파운데이션 모델로 다양한 작업으로 일반화하는 능력을 시연했다.[14]
2021년에 트랜스포머 기반 픽셀 생성 모델인 DALL-E의 출시에 이어 Midjourney 및 스테이블 디퓨전은 자연어 프롬프트에서 실용적인 고품질 인공 지능 예술의 출현을 표시했다.
2023년에 GPT-4가 출시되었다. 마이크로소프트 리서치 팀은 "합리적으로 인공 일반 지능(AGI) 시스템의 초기(아직 불완전한) 버전으로 볼 수 있다"고 결론지었다.[15]
모달에 따른 입력
생성형 AI 시스템은 데이터 집합에 비지도기계 학습 또는 자기 지도 기계 학습을 적용함으로써 구성된다. 생성형 AI 시스템의 기능은 사용되는 데이터 집합의 양상이나 형태에 따라 달라진다.
생성형 AI는 유니모달(unimodal) 또는 멀티모달(multimodal)일 수 있다. 유니모달 시스템은 오직 하나의 입력만 받는 반면 멀티모달 시스템은 둘 이상의 입력을 받을 수 있다.[16] 예를 들어 오픈AI의 GPT-4의 한 버전은 텍스트와 이미지 입력을 둘 다 수용한다.[17]
음악: MusicLM 등의 생성형 AI 시스템은 '왜곡된 기타 리프(riff)의 차분한 바이올린 멜로디'와 같은 텍스트 문구를 기반으로 새로운 음악 샘플을 생성하기 위해 텍스트 주해와 더불어 녹음 음악의 오디오 파형을 가지고 훈련이 가능하다.[22]
오디오:가우디오랩의 FALL-E 등 이미지나 텍스트 등을 입력하면 AI가 백색 잡음에서 해당하는 소리를 자동으로 생성해 내는 기술이다.[23]
비디오: 어노테이션이 있는 영상으로 훈련된 생성형 AI는 시간 일관적 비디오 클립을 생성할 수 있다. 그 예로 RunwayML에 의한 Gen1[24]과 메타 플랫폼스의 메이크-어-비디오(Make-A-Video) 등이 있다.[25]
로봇 동작: 로봇 시스템 움직임을 통해 훈련된 생성형 AI는 모션 플래닝을 위한 새로운 궤적을 생성할 수 있다. 예를 들어 구글 리서치의 UniPi는 "파란색 그릇을 집어", "노란 스폰지로 그릇을 닦아"와 같은 프롬프트를 사용하여 로봇 팔의 움직임을 통제할 수 있다.[26]
↑Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (2016년 6월 16일). “Generative models”. 《OpenAI》.
↑Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J; Bosselut, A; Brunskill, E; Brynjolfsson, E (2021년 8월 16일). “On the opportunities and risks of foundation models”. arXiv:2108.07258.
↑Chen, Ming; Tworek, Jakub; Jun, Hongyu; Yuan, Qinyuan; Pinto, Hanyu Philippe De Oliveira; Kaplan, Jerry; Edwards, Haley; Burda, Yannick; Joseph, Nicholas; Brockman, Greg; Ray, Alvin (2021년 7월 6일). “Evaluating Large Language Models Trained on Code”. arXiv:2107.03374.