DALL-E : 텍스트를 이미지로 생성하는 AI 기술

□ DALL-E 소개

▶ DALL-E란 무엇인가?

DALL-E 기술은 2021년 OpenAI에서 개발한 대규모 언어 모델 중 하나이며, 텍스트 설명만으로 이미지를 생성할 수 있는 인공지능이다. DALL-E의 이름은 스페인 초현실주의 화가 Salvador Dali와 미국 초기 인공지능 연구자 Allen Newell의 이름을 따서 명명되었다. DALL-E는 방대한 텍스트 및 이미지 데이터 세트로 학습되며, 이 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하는 방법을 학습한다. DALL-E에 이미지에 대한 텍스트 설명을 제공하면 해당 설명과 일치하는 이미지를 생성한다. 예를 들어, “푸른 하늘을 배경으로 해가 지는 그림”이라는 텍스트를 제공하면 이를 분석하여 푸른 하늘을 배경으로 해가 지는 그림을 생성한다.

<그림1. DALL-E 시작화면, OpenAI >

□ DALL-E 핵심기술

▶ 대규모 언어 모델(Large Language Model, LLM)

LLM은 매우 큰 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 모델로, DALL-E는 대규모의 이미지와 텍스트 데이터 세트를 사용하여, 이미지와 데이터 세트 사이의 관계를 파악하고 학습한다.

▶ 변환모델(Transfomer Model)

변환모델은 시퀀스 데이터(Sequence Data)를 효과적으로 처리한다. 이 모델은 입력 시퀀스의 다양한 부분에 가중치를 부여하여 주어진 작업에 가장 중요한 부분을 집중적으로 학습하게 된다. 이러한 메커니즘은 자연어 처리(NLP)와 이미지 생성 작업에 매우 유용하게 작용한다. DALL-E의 경우, 텍스트 설명과 이미지 사이의 연관성을 파악, 학습을 통한 과거 데이터 업데이트를 통해 정확학 예측을 진행하게 된다.

< 그림2. 변환모델 작동 예시, NVIDA >

▶ 생성적 적대 신경망(Generative Adversarial Network, GAN)

GAN은 서로 경쟁하는 두 개의 신경망, 생성기(Generator)와 판별자기(discriminator)로 구성되어 있으며 이 두 신경망은 서로 경쟁을 통해 서로의 성능을 향상하며 최종적으로 진짜 같은 가짜를 만드는 것이다. 생성기는 실제 데이터를 학습하고 이를 바탕으로 거짓 데이터를 생성하며 실제에 가까운 거짓 데이터를 생성하는 것이 목적이다. 분류기는 생성기가 만들어 낸 데이터가 실제인지 거짓인지 판별하도록 학습되며 생성기의 거짓 데이터로부터 속지 않는 것이 목적이다. DALL-E에서도 입력받은 텍스트를 생성기는 해당 텍스트와 일치하는 이미지를 생성, 판별기는 실제 이미지와 생성된 이미지를 구별하는 과정을 통해 최종적으로 입력받은 텍스트와 매우 유사한 이미지를 생성하게 된다.

< 그림3. GAN 작동 예시, 핵의학기술 >

□ DALL-E2

▶ DALL-E 대비 향상된 모델

DALL-E22022년 하반기에 공개된 모델로서, 이미지 해상도와 정확도, 그리고 안전성 측면에서 더욱 향상된 결과를 제공하고 있어 현재까지 많은 사용자를 보유하고 있다. 특히 안전성 측면에 있어 인공지능 기술의 중요 요소 중 하나인 결과의 신뢰성에 있어, 사람의 이미지를 인종과 성별의 차별 없이 세계 인구의 다양성을 더욱 정확하게 반영하도록 개선하였다.

< 그림4. DALL-E 및 DALL-E2의 사람 이미지 표현, OpenAI >

DALL-EDALL-E2

dall-e

dall-e2

< DALL-E / DALL-E2 비교(기능적) >

항목DALL-EDALL-E2비고
해상도(최대)1024*10242048*2048 
일관성낮은 일관성개선된 일관성같은 질문에 대한 이미지 일관성
텍스트 이해낮은 이해력개선된 이해력프롬프트 이해력
편향성존재감소인종, 성별의 차별 여부

< DALL-E2 개선점(기술적) >

개선점세부 내용
아키텍처 최적화Transformer 아키텍처 최적화를 통한 효율성 및 성능 향상
CLIP 사용텍스트에 부합하기 위한 핵심 특징을 중간 형태로 텍스트 변환
확산모델(Diffusion Model)새로운 확산모델 신경망 이용, CLIP 만족하는 이미지 생성
손실 함수 개선이미지 품질과 일관성 향상
편향성 감소균형 있는 데이터 세트, 편향성 감지 및 수정 알고리즘 적용

□ DALL-E 활용 사례

▶ 창의적 영감 제공

예술가나 디자이너가 영감을 얻기 위해 다른 예술 작품이나 디자인을 참고하듯이 사용자에게 창의적인 시각 자료를 제공할 수 있다. DALL-E를 통해 사용자가 생각하는 단어를 입력하면 네 가지의 다른 이미지를 생성하기 때문에 상상력을 강화하는 도구로 사용할 수 있으며, 동시에 창작의 시간을 많이 절약할 수 있다.

< 그림3. DALL-E 이용한 창작 이미지 >

dall-edall-e

▶ 상업 이미지 제작

디자이너, 비디오 크리에이터, 광고 홍보 대행사 등 소비자와 직간접적으로 영향을 미치는 분야에서 DALL-E를 통해 광고와 홍보, 마케팅의 시간과 비용을 단축하는 데 적극적으로 이용하고 있다.

< 그림4. DALL-E 이용한 잡지 이미지, 코스모폴리탄 >

dall-edall-e

▶ 시제품 제작 활용

DALL-E를 실제 디자인 제품을 만들기 전 검토를 위한 시제품 작업의 프로세서에 활용할 수 있다. DALL-E 기능에는 이미지 일부분만 수정하고 지워진 부분에 단어를 입력해 새로운 이미지가 자연스럽게 이어지도록 할 수 있는 편집기능이 있다. 이 기능을 통해 여러 아이디어를 시각화할 수 있어 시간 및 비용 절감에 큰 도움이 될 수 있다.

< 그림4. DALL-E 편집기능 활용 예, OpenAI >

dall-e

결론

▶ DALL-E의 윤리적 사용

DALL-E 기술은 현재 예술과 디자인 분야를 넘어 교육 및 연구, 소셜 미디어, 엔터테인먼트 분야까지 다양한 분야에서 큰 영향을 끼치고 있다. 독창적인 아이디어를 위한 브레인스토밍 역할을 하고 있으며, 교육 및 연구 결과 내용을 시각화하여 좀 더 쉽게 지식을 공유하는 데 활용될 수 있다. 콘텐츠 생산자로선 재미있고 독창적인 이미지를 DALL-E를 통해 만들어 좀 더 소비자에게 다양한 소재의 콘텐츠를 제공하는 데 활용할 수 있다. 하지만, 이렇게 활용성이 높은 만큼 악의적인 목적으로 사용될 수 있는 경우도 발생하고 있다. 가장 대표적인 예로 가짜뉴스를 들 수 있다. 사람들이 속이기 위한 목적으로 이미지를 조작하는 데 활용되기도 한다. 또한, 너무 DALL-E를 통해서만 이미지를 제작하면 자신만의 아이디어를 생각해 내지 못하게 되는 상황도 염려된다. 이렇듯 DALL-E는 이미지 생성에 있어 강력한 도구이지만, 사용하는 우리 역시 책임감을 느끼고 사용할 필요가 있다. 기술의 잠재적인 위험을 인식하며 우리 스스로 윤리적인 자세를 가지고 사용하는 것이 올바른 기술 발전의 토대라 말할 수 있을 것이다.

ChatGPT에 대해서

ChatGPT

□ GPT 개념

▶ GPT란?

GPT(Generative Pre-trained Transfomer)는 미국 OpenAI 기업에서 개발한 대표적인 자연어 처리 기술로, 인공지능 분야에서 큰 성과를 거두고 있는 기술이다. GPT는 Transformer 아키텍처를 기반으로 하며, 비지도 학습 방식의 언어 모델링을 통해 다양한 자연어 처리(NLP) 작업을 수행한다. Transfomer 아키텍처는 기존의 순차적인 인공 신경망 모델들과 달리, 동시에 다수의 단어를 처리하는 자기주의 매커니즘을 사용한다. GPT는 이를 통해 긴 문맥의 정보를 더욱 효과적으로 파악하고 예측하는 방식으로 훈련되며, 이를 통해 다양한 자연어 처리 작업에서 높은 성능을 보여준다.

□ GPT 발전 과정

▶ GPT-1

GPT의 첫 번째 모델로, 2018년에 소개되었다. 공개 당시 자연어 처리 작업에서 높은 성능을 보여주었지만, 더 큰 모델과 더 많은 데이터를 사용하여 성능을 개선해야 하는 필요성이 있었다.

▶ GPT-2

2019년에 발표된 모델로, 이전 모델보다 더 큰 모델과 더 많은 데이터를 사용하여 성능을 크게 향상했다. 인터넷상의 대규모 텍스트 데이터를 사용하여 학습하였으며, 이를 통해 다양한 자연어 처리 작업에서 놀라운 성능을 보여주었다. 하지만, 모델의 크기가 커짐에 따라 데이터 학습 및 결과에 대한 복잡성 문제가 대두되었다.

▶ GPT-3

2020년에 발표된 모델로, 175억개의 파라미터(매개변수)를 가지고 있어 이전 모델보다 훨씬 큰 규모로 개발되었으며, 대규모 데이터셋을 활용하여 학습하였다. GPT-3의 가장 큰 특징은 Few-Shot Learning으로, 작은 양의 데이터만으로도 높은 성능을 낼 수 있다는 점이다. 이에 따라 GPT-3는 다양한 자연어 처리 작업에서 높은 성능을 보여주게 되었다.

GPT-3.5

2021년에 발표된 모델로, 이전 버전의 기능을 유지하면서, 인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF) 적용으로 대화에 최적화 한 것이 가장 큰 특징이다. 이에 따라 GPT는 다양한 분야에 적용되기 시작하였으며 도입된 산업(분야)에 큰 효율성을 이끄는 데 이바지하였다. 이후 2022년 하반기에는 GPT-3.5 기반의 “ChatGPT”베타버전이 공개되었으며 기업뿐만 아니라 누구나 손쉽게 인공지능 기술을 이용하여 자기만의 창의적이고 효율적인 일을 해 나갈 수 있게 사회적으로 큰 영향을 주고 있다. 하지만, 모델이 사실과는 맞지 않는 결과를 도출하는, 즉 결과의 신뢰성에 대한 문제가 지적되고 있다.

< 그림1. ChatGPT 초기 화면 >

ChatGPT 초기화면

▶ GPT-4

2023년 발표된 모델로, 이전 모델에서 지적된 신뢰성 문제를 학습 후 교정 과정(Post-training alignment process)을 통해 결과의 팩트 체크 및 안정성을 강화했다는 점이 특징이다. 또한 GPT-3의 경우 최대 Input 단어가 8천여 개인 반면, GPT-4는 2만 5천여 개로 늘어났다는 점이다. 물론, GPT-4 모델 역시, 하지만, GPT-3 모델보다 훨씬 개선되긴 하였지만, 사실이 아닌 결과를 도출하는 모습이 없진 않기 때문에 사용자의 주의가 필요한 상황이다.

< 그림2. GPT-3.5 vs GPT-4 Exam results (OpenAI) >

GPT-3.5 vs GPT-4

□ GPT 기술 구성 요소

Transformer 아키텍처

ChatGPT의 기반이 되는 인공 신경망 모델로, 주로 자연어 처리 분야에서 사용된다. Transfomer는 입력 데이터와 출력 데이터 사이의 상호 관계를 인코딩하는 방식으로 작동하며, 이를 통해 문장의 구조와 문맥을 이해할 수 있다.

언어 모델링

비지도 학습 방식을 통해 큰 규모의 텍스트 데이터를 학습하여 문장의 구조와 문맥을 파악, 이를 통해 새로운 문장을 생성할 수 있게 된다.

다중 테스크 학습(Multi-task Learning)

ChatGPT는 다중 테스크 학습을 통해 여러 작업을 동시에 수행할 수 있으며 이를 통해 데이터 학습 및 결과 도출의 효율성을 이끌어낸다.

퓨샷 학습(Few-shot Learning)

ChatGPT는 퓨샷 학습을 통해 적은 양의 데이터로도 분석, 이를 통해 빠르게 새로운 작업에 적응할 수 있으며 다양한 활용 분야로 사용될 수 있게 된다.

□ ChatGPT 활용 사례

▶ 논문 작성

초록 글자 수 요약, 창의적인 연구 제목 제안, 실험 결과의 논의, 연구 목차 작성, 향후 연구 아이디어 추천, 특정 주제에 대한 글 작성, 작성 내용에 대한 문법 교정, 번역 등 ChatGPT를 이용하여 연구 설계 단계부터 연구 작성에 이르기까지 다양한 작업 수행이 가능하다.

▶ 프로그래밍

간단한 프로그램 코드 짜기, 주석 달기, 코드상 오류 찾기(오타, 정의되지 않은 코드 발견), 에러 코드에 대한 이유 확인, 에러 코드 수정, 프로그램 설치법 안내, 업데이트 방법 안내 등 ChatGPT를 이용해 코드 작성, 코드 오류 발견, 코드 수정 등 다양한 프로그래밍 작업 수행이 가능하다.

언어 번역 및 교정

기존 번역기와 다르게 단순 번역을 넘어 교정 및 문법적인 오류까지 설명해주기 때문에 영어를 포함한 다양한 외국어 교육 활용이 가능하다.

▶ 콘텐츠 작성

사용자의 질문에 대한 단순 답변 수준을 넘어 영화 시나리오, 소설, 노래 가사, 제품 전단지, 광고 대본, 금융 보고서, 계약서, 제안서, 강의 커리큘럼 등 다양한 콘텐츠를 창의적인 형태로 제작할 수 있다.

□ ChatGPT 한계

▶ 기능성의 한계 : 신뢰성 이슈

ChatGPT는 사람과 대화한다는 착각을 불러일으킬 정도로 답변 성능이 우수하다. 하지만, ChatGPT 역시 미흡한 부분이 있으며, 의도치 않은 편향적인 결과를 도출할 가능성이 존재한다. 일단, ChatGPT는 2021년 이전의 데이터로만 학습하였기 때문에 2022년 이후 일어난 정보에 대해선 부정확한 답변을 낼 수 있다. 또한 강화학습을 적용한 결과 오히려 인간의 결함과 실수를 쉽게 모방할 우려가 있어 잘못된 결과를 도출할 가능성이 있다. 특히, 꽤 논리적으로 보이는 답변이 팩트 체크를 통해 잘못된 정보이거나 무의미한 내용인 경우도 있다.

▶ 서비스상의 한계 : 지속 가능한 수익 구조

ChatGPT는 초단기간에 타 서비스를 넘어서는 사용자를 모았지만, 이렇다고 할만한 수익 모델이 없다는 점이 한계로 지적된다. 최근 출시한 GPT-4의 경우 ‘ChatGPT Plus’ 구독 서비스를 통해 유료화를 진행하고 있지만 무료 기반의 GPT-3.5 사용자 대비 매우 적은 것이 현실이다. 이러므로 단기간의, 단순 기능의 확장에서 벗어나 지속가능성을 담보할 수 있는 킬러 서비스 개발이 필요한 상황이다.

□ 결론

ChatGPT를 대하는 우리의 자세

2023년 상반기 일반에 공식적으로 공개된 ChatGPT의 등장은 우리가 지식을 얻기 위해 드는 시간과 비용을 획기적으로 절감해줌으로써 지식의 정의를 바꿀 만큼 혁신적인 변화를 가져다주고 있으며, 이러한 기술의 발전은 향후 인간의 역할 변화까지 요구하게 될 수 있을 것이다. 하지만, 이와 동시에 결과의 신뢰성에 관한 질문을 던지고 있으며, 경제적 차이에 따른 기술 수준의 차별에 따른 정보의 부익부 빈익빈 현상이 사회적으로 커질 수 있다는 점도 우려된다. 기술은 양날의 검이라 할 수 있듯이 우리 스스로가 ChatGPT로 발현된 인공지능 기술을 편견 없이, 공정하게, 그리고 보편적으로 사용할 수 있을지 고민해 볼 필요가 있다. 올바른 기술의 발전과 사용만이 해당 기술의 가치를 인정할 수 있기 때문이다.

error: Content is protected !!