DALL-E : 텍스트를 이미지로 생성하는 AI 기술

□ DALL-E 소개

▶ DALL-E란 무엇인가?

DALL-E 기술은 2021년 OpenAI에서 개발한 대규모 언어 모델 중 하나이며, 텍스트 설명만으로 이미지를 생성할 수 있는 인공지능이다. DALL-E의 이름은 스페인 초현실주의 화가 Salvador Dali와 미국 초기 인공지능 연구자 Allen Newell의 이름을 따서 명명되었다. DALL-E는 방대한 텍스트 및 이미지 데이터 세트로 학습되며, 이 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하는 방법을 학습한다. DALL-E에 이미지에 대한 텍스트 설명을 제공하면 해당 설명과 일치하는 이미지를 생성한다. 예를 들어, “푸른 하늘을 배경으로 해가 지는 그림”이라는 텍스트를 제공하면 이를 분석하여 푸른 하늘을 배경으로 해가 지는 그림을 생성한다.

<그림1. DALL-E 시작화면, OpenAI >

□ DALL-E 핵심기술

▶ 대규모 언어 모델(Large Language Model, LLM)

LLM은 매우 큰 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 모델로, DALL-E는 대규모의 이미지와 텍스트 데이터 세트를 사용하여, 이미지와 데이터 세트 사이의 관계를 파악하고 학습한다.

▶ 변환모델(Transfomer Model)

변환모델은 시퀀스 데이터(Sequence Data)를 효과적으로 처리한다. 이 모델은 입력 시퀀스의 다양한 부분에 가중치를 부여하여 주어진 작업에 가장 중요한 부분을 집중적으로 학습하게 된다. 이러한 메커니즘은 자연어 처리(NLP)와 이미지 생성 작업에 매우 유용하게 작용한다. DALL-E의 경우, 텍스트 설명과 이미지 사이의 연관성을 파악, 학습을 통한 과거 데이터 업데이트를 통해 정확학 예측을 진행하게 된다.

< 그림2. 변환모델 작동 예시, NVIDA >

▶ 생성적 적대 신경망(Generative Adversarial Network, GAN)

GAN은 서로 경쟁하는 두 개의 신경망, 생성기(Generator)와 판별자기(discriminator)로 구성되어 있으며 이 두 신경망은 서로 경쟁을 통해 서로의 성능을 향상하며 최종적으로 진짜 같은 가짜를 만드는 것이다. 생성기는 실제 데이터를 학습하고 이를 바탕으로 거짓 데이터를 생성하며 실제에 가까운 거짓 데이터를 생성하는 것이 목적이다. 분류기는 생성기가 만들어 낸 데이터가 실제인지 거짓인지 판별하도록 학습되며 생성기의 거짓 데이터로부터 속지 않는 것이 목적이다. DALL-E에서도 입력받은 텍스트를 생성기는 해당 텍스트와 일치하는 이미지를 생성, 판별기는 실제 이미지와 생성된 이미지를 구별하는 과정을 통해 최종적으로 입력받은 텍스트와 매우 유사한 이미지를 생성하게 된다.

< 그림3. GAN 작동 예시, 핵의학기술 >

□ DALL-E2

▶ DALL-E 대비 향상된 모델

DALL-E2는 2022년 하반기에 공개된 모델로서, 이미지 해상도와 정확도, 그리고 안전성 측면에서 더욱 향상된 결과를 제공하고 있어 현재까지 많은 사용자를 보유하고 있다. 특히 안전성 측면에 있어 인공지능 기술의 중요 요소 중 하나인 결과의 신뢰성에 있어, 사람의 이미지를 인종과 성별의 차별 없이 세계 인구의 다양성을 더욱 정확하게 반영하도록 개선하였다.

< 그림4. DALL-E 및 DALL-E2의 사람 이미지 표현, OpenAI >

< DALL-E / DALL-E2 비교(기능적) >

항목	DALL-E	DALL-E2	비고
해상도(최대)	1024*1024	2048*2048
일관성	낮은 일관성	개선된 일관성	같은 질문에 대한 이미지 일관성
텍스트 이해	낮은 이해력	개선된 이해력	프롬프트 이해력
편향성	존재	감소	인종, 성별의 차별 여부

< DALL-E2 개선점(기술적) >

개선점	세부 내용
아키텍처 최적화	Transformer 아키텍처 최적화를 통한 효율성 및 성능 향상
CLIP 사용	텍스트에 부합하기 위한 핵심 특징을 중간 형태로 텍스트 변환
확산모델(Diffusion Model)	새로운 확산모델 신경망 이용, CLIP 만족하는 이미지 생성
손실 함수 개선	이미지 품질과 일관성 향상
편향성 감소	균형 있는 데이터 세트, 편향성 감지 및 수정 알고리즘 적용

□ DALL-E 활용 사례

▶ 창의적 영감 제공

예술가나 디자이너가 영감을 얻기 위해 다른 예술 작품이나 디자인을 참고하듯이 사용자에게 창의적인 시각 자료를 제공할 수 있다. DALL-E를 통해 사용자가 생각하는 단어를 입력하면 네 가지의 다른 이미지를 생성하기 때문에 상상력을 강화하는 도구로 사용할 수 있으며, 동시에 창작의 시간을 많이 절약할 수 있다.

< 그림3. DALL-E 이용한 창작 이미지 >

▶ 상업 이미지 제작

디자이너, 비디오 크리에이터, 광고 홍보 대행사 등 소비자와 직간접적으로 영향을 미치는 분야에서 DALL-E를 통해 광고와 홍보, 마케팅의 시간과 비용을 단축하는 데 적극적으로 이용하고 있다.

< 그림4. DALL-E 이용한 잡지 이미지, 코스모폴리탄 >

▶ 시제품 제작 활용

DALL-E를 실제 디자인 제품을 만들기 전 검토를 위한 시제품 작업의 프로세서에 활용할 수 있다. DALL-E 기능에는 이미지 일부분만 수정하고 지워진 부분에 단어를 입력해 새로운 이미지가 자연스럽게 이어지도록 할 수 있는 편집기능이 있다. 이 기능을 통해 여러 아이디어를 시각화할 수 있어 시간 및 비용 절감에 큰 도움이 될 수 있다.

< 그림4. DALL-E 편집기능 활용 예, OpenAI >

□ 결론

▶ DALL-E의 윤리적 사용

DALL-E 기술은 현재 예술과 디자인 분야를 넘어 교육 및 연구, 소셜 미디어, 엔터테인먼트 분야까지 다양한 분야에서 큰 영향을 끼치고 있다. 독창적인 아이디어를 위한 브레인스토밍 역할을 하고 있으며, 교육 및 연구 결과 내용을 시각화하여 좀 더 쉽게 지식을 공유하는 데 활용될 수 있다. 콘텐츠 생산자로선 재미있고 독창적인 이미지를 DALL-E를 통해 만들어 좀 더 소비자에게 다양한 소재의 콘텐츠를 제공하는 데 활용할 수 있다. 하지만, 이렇게 활용성이 높은 만큼 악의적인 목적으로 사용될 수 있는 경우도 발생하고 있다. 가장 대표적인 예로 가짜뉴스를 들 수 있다. 사람들이 속이기 위한 목적으로 이미지를 조작하는 데 활용되기도 한다. 또한, 너무 DALL-E를 통해서만 이미지를 제작하면 자신만의 아이디어를 생각해 내지 못하게 되는 상황도 염려된다. 이렇듯 DALL-E는 이미지 생성에 있어 강력한 도구이지만, 사용하는 우리 역시 책임감을 느끼고 사용할 필요가 있다. 기술의 잠재적인 위험을 인식하며 우리 스스로 윤리적인 자세를 가지고 사용하는 것이 올바른 기술 발전의 토대라 말할 수 있을 것이다.