최근 ChatGPT에서 Web browsing 기능과 더불어 플러그인 기능을 지원하기 시작하였다. (현재는 베타버젼이며, Chatgpt plus 이용자에 한에서 가능하다.)
이 중에서 플러그인 기능에 대해서 알아보고자 한다.
1. ChatGPT 플러그인 설치 방법
▶ chatgpt 화면창 맨 왼쪽 아래에 계정 아이디 옆에 있는 점 버튼을 클릭 후 “setting” 선택
▶ setting 내 “beta feature” 선택 후 Plugins 활성화
▶ 채팅창으로 돌아와 위에서 GPT-4 선택 후 아래 나오는 메뉴에서 “Plugins”선택
▶ Plugin 메뉴 하단에 “Plugin store” 선택
▶ Plugin store 접속하여 원하는 플러그인 설치
2. ChatGPT 추천 플러그인
1). WebPilot
이 플러그인은 말 그래도 ChatGPT 가 웹 접속을 통해 최신 정보를 검색하여 질문에 대한 답을 할 수 있게 하는 기능이다. (아마 가장 기본이 되는 플러그인이라 할 수 있다.)
2). AskYourPDF
이 플러그인은 인터넷에 있는 PDF 파일을 분석해주는 기능을 제공한다. 해당 PDF의 링크를 프롬프트에 입력하여 분석하게 하면 되는데, 인터넷 연결이 필요함으로 위 WebPilot 플러그인과 같이 사용하는 것이 좋다.
3). Show me
이 플러그인은 해당 자료를 분석하여 다이어그램으로 표현해주는 기능을 제공한다. 인터넷 자료 뿐만 아니라 위의 AskYourPDF 플러그인과 같이 사용하는 내용 요약을 다이어그램으로 볼 수 있기 때문에 시각적으로 내용을 이해하는데 큰 도움이 될 수 있다.
지금까지 ChatGPT의 플러그인 기능에 대해서 간단하게 알아보았다. 현재 Web browsing 과 플러그인 모두 베타 버전으로 지원되고 있기 때문에 아직 오류가 발생할 수 밖에 없다. 하지만 이는 시간이 해결해 줄 문제가 아닐까 싶다. 지속적인 개선을 통해 지금보다 훨씬 효율적으로 결과물을 낼 수 있을 것이다. 위 두 기능의 지원으로 GPT의 최대 단점이던 최신 정보의 부재(GPT-4 까지도 2021년 9월까지의 데이터만 학습함)를 위 기능 개선을 통해 해결하게 되었다. ChatGPT 등장 이후 치열해지고 있는 인공지능 서비스 경쟁에서 과연 ChatGPT가 어떻게 행동에 나설 지 기대가 된다.
최근 우리 주변에서 많이 듣게 되는 인공지능 관련 정보들 중에는 명확하게 구분되지 않은 상태로 전달되는 것이 많다. 가장 대표적으로 인공지능과 머신러닝, 인공신경망, 그리고 딥러닝에 대한 개념이 많이 혼동되고 있다. 이 네 가지 기술에 대해서 정확하게 이해하고, 이 기술의 관계에 대해 알아보도록 하자
인공지능이란, 간단히 말해서, 기계가 인간처럼 생각하고 학습하는 능력을 가지게 하는 기술을을 말한다. 이는 기계가 인간의 지능을 모방하여 학습하고, 추론하며, 스스로를 개선하는 행위까지 의미한다. 또한, 인간이 직접 조종하지 않아도 기계 스스로 반응하고 작업을 수행할 수 있도록 할 수 있다. 이러한 기술이 가능한 이유는 바로 자연어 처리, 음성 인식, 컴퓨터 비전 등의 기술을 통해 데이터를 학습하여 스스로 판단을 내리는 것이다.
머신러닝은 인공지능의 한 분야로, 컴퓨터가 스스로 학습하는 능력을 개발하는 것을 말한다. 이는 알고리즘을 사용하여 데이터를 분석하고, 패턴을 학습하며, 예측이나 결정을 내리게 된다. 머신러닝은 크게 지도 학습, 비지도 학습, 강화 학습의 세 가지 유형으로 나뉜다. 지도 학습은 알고리즘이 입력과 그에 상응하는 출력을 통해 학습하는 방식이고, 비지도 학습은 알고리즘이 출력 없이 입력만을 통해 학습하는 방식이다. 그리고 강화 학습은 알고리즘이 행동을 통해 얻은 보상을 기반으로 학습하는 방식이다.
3. 인공신경망(ANNs)이란
인공 신경망은 인간의 뇌가 정보를 처리하는 방식을 모방한 컴퓨팅 시스템으로, 인간 뇌의 뉴런이 서로 연결되어 복잡한 패턴을 인식하고 학습하는 방식을 따라한 것이다. 인공 신경망은 여러 개의 노드 또는 “뉴런”으로 구성되며, 이 뉴런들은 계층적으로 배열된다. 각 뉴런은 입력을 받아 처리하고, 그 결과를 다음 뉴런에 전달된다. 이 과정으로 입력 계층에서 시작하여 출력 계층에서 끝난다.
인공 신경망의 핵심은 “학습” 과정이다. 이는 네트워크가 주어진 입력에 대한 적절한 출력을 생성하도록 가중치를 조정하는 과정을 거친다. 이 학습은 일반적으로 오류 역전파 알고리즘을 통해 수행된다. 이 알고리즘은 네트워크의 출력과 원하는 출력 간의 차이, 즉 “오류”를 계산하고, 이 오류를 역전파하여 네트워크의 가중치를 조정한다 인공 신경망은 다양한 형태와 구조를 가질 수 있는데 가장 간단한 형태는 피드포워드 신경망이며, 이는 뉴런이 한 방향으로만 연결된 구조를 가진다. 더 복잡한 형태로는 컨볼루션 신경망, 순환 신경망, 딥 신경망 등이 있다.
4. 딥러닝(DL)이란
딥러닝은 머신러닝의 한 분야로, 인공 신경망을 기반으로 하는 기술이다. 이는 인간의 뇌가 정보를 처리하고 학습하는 방식을 모방한 것이다. 딥러닝 모델은 여러 계층의 노드와 연결로 구성되어 있으며, 각 계층은 이전 계층에서 받은 정보를 기반으로 결정을 내린다. 딥러닝은 이미지 분류, 음성 인식, 자연어 처리 등 다양한 분야에서 사용된다. 또한 빅데이터 분석에 사용되어 대량의 데이터를 처리하고 복잡한 패턴을 인식하여 학습하게 된다.
5. 인공지능, 머신러닝, 인공신경망, 딥러닝의 관계
인공지능, 머신러닝, 인공신경망, 딥러닝은 별도의 기술이 아닌 상호 연결된 기술이라고 말할 수 있다.
인공지능은 가장 넓은 범위의 개념으로, 기계가 인간의 지능을 모방하여 작업을 수행하는 능력을 의미한다. 머신러닝은 인공지능의 한 분야로, 기계가 데이터를 통해 학습하고, 패턴을 인식하며, 예측이나 결정을 내리는 능력을 개발하는 것이 특징이다. 인공 신경망은 머신러닝의 한 방법론으로, 인간의 뇌가 정보를 처리하는 방식을 모방한 컴퓨팅 시스템이다. 딥러닝은 인공 신경망을 기반으로 한 머신러닝의 한 분야로, 여러 계층의 인공 신경망을 사용하여 복잡한 패턴을 인식하고 학습하는 능력을 개발하여 훨씬 복잡한 분석을 하게 된다.
6. 해당 기술의 응용
▶ 인공지능
인공지능은 대표적으로 가상 개인 비서, 자율 주행 자동차, 음성 인식 기술, 사기 탐지 시스템 등에 사용되고 있으며, 또한, 인공지능은 의료 분야에서 질병 진단, 치료 방안 제안 등에도 활용되고 있다.
▶ 머신러닝
머신러닝은 웹 검색, 이메일 스팸 필터링, 추천 시스템, 이미지 및 음성 인식 등 다양한 분야에서 활용되고 있으며, 금융 시장 예측, 의료 진단, 자연어 처리 등에도 사용되고 있다.
▶인공신경망
인공 신경망은 이미지 및 음성 인식, 자연어 처리, 손글씨 인식 등 다양한 분야에서 활용되고 있으며, 복잡한 패턴을 인식하고 예측하는 데 사용되므로, 주식 시장 예측, 날씨 예측 등에도 활용되고 있다.
▶ 딥러닝
딥러닝은 머신러닝과 인공 신경망의 기술을 활용하여 더 복잡한 문제를 해결한다. 이미지 및 음성 인식, 자연어 처리, 의료 진단 등에서 뛰어난 성능을 보이며, 가장 대표적인 분야로 자율 주행 자동차의 개발에 활용되고 있다.
DALL-E 기술은 2021년 OpenAI에서 개발한 대규모 언어 모델 중 하나이며, 텍스트 설명만으로 이미지를 생성할 수 있는 인공지능이다. DALL-E의 이름은 스페인 초현실주의 화가 Salvador Dali와 미국 초기 인공지능 연구자 Allen Newell의 이름을 따서 명명되었다. DALL-E는 방대한 텍스트 및 이미지 데이터 세트로 학습되며, 이 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하는 방법을 학습한다. DALL-E에 이미지에 대한 텍스트 설명을 제공하면 해당 설명과 일치하는 이미지를 생성한다. 예를 들어, “푸른 하늘을 배경으로 해가 지는 그림”이라는 텍스트를 제공하면 이를 분석하여 푸른 하늘을 배경으로 해가 지는 그림을 생성한다.
<그림1. DALL-E 시작화면, OpenAI >
□ DALL-E 핵심기술
▶ 대규모 언어 모델(Large Language Model, LLM)
LLM은 매우 큰 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 모델로, DALL-E는 대규모의 이미지와 텍스트 데이터 세트를 사용하여, 이미지와 데이터 세트 사이의 관계를 파악하고 학습한다.
▶ 변환모델(Transfomer Model)
변환모델은 시퀀스 데이터(Sequence Data)를 효과적으로 처리한다. 이 모델은 입력 시퀀스의 다양한 부분에 가중치를 부여하여 주어진 작업에 가장 중요한 부분을 집중적으로 학습하게 된다. 이러한 메커니즘은 자연어 처리(NLP)와 이미지 생성 작업에 매우 유용하게 작용한다. DALL-E의 경우, 텍스트 설명과 이미지 사이의 연관성을 파악, 학습을 통한 과거 데이터 업데이트를 통해 정확학 예측을 진행하게 된다.
< 그림2. 변환모델 작동 예시, NVIDA >
▶ 생성적 적대 신경망(Generative Adversarial Network, GAN)
GAN은 서로 경쟁하는 두 개의 신경망, 생성기(Generator)와 판별자기(discriminator)로 구성되어 있으며 이 두 신경망은 서로 경쟁을 통해 서로의 성능을 향상하며 최종적으로 진짜 같은 가짜를 만드는 것이다. 생성기는 실제 데이터를 학습하고 이를 바탕으로 거짓 데이터를 생성하며 실제에 가까운 거짓 데이터를 생성하는 것이 목적이다. 분류기는 생성기가 만들어 낸 데이터가 실제인지 거짓인지 판별하도록 학습되며 생성기의 거짓 데이터로부터 속지 않는 것이 목적이다. DALL-E에서도 입력받은 텍스트를 생성기는 해당 텍스트와 일치하는 이미지를 생성, 판별기는 실제 이미지와 생성된 이미지를 구별하는 과정을 통해 최종적으로 입력받은 텍스트와 매우 유사한 이미지를 생성하게 된다.
< 그림3. GAN 작동 예시, 핵의학기술 >
□ DALL-E2
▶ DALL-E 대비 향상된 모델
DALL-E2는 2022년 하반기에 공개된 모델로서, 이미지 해상도와 정확도, 그리고 안전성 측면에서 더욱 향상된 결과를 제공하고 있어 현재까지 많은 사용자를 보유하고 있다. 특히 안전성 측면에 있어 인공지능 기술의 중요 요소 중 하나인 결과의 신뢰성에 있어, 사람의 이미지를 인종과 성별의 차별 없이 세계 인구의 다양성을 더욱 정확하게 반영하도록 개선하였다.
< 그림4. DALL-E 및 DALL-E2의 사람 이미지 표현, OpenAI >
DALL-E
DALL-E2
< DALL-E / DALL-E2 비교(기능적) >
항목
DALL-E
DALL-E2
비고
해상도(최대)
1024*1024
2048*2048
일관성
낮은 일관성
개선된 일관성
같은 질문에 대한 이미지 일관성
텍스트 이해
낮은 이해력
개선된 이해력
프롬프트 이해력
편향성
존재
감소
인종, 성별의 차별 여부
< DALL-E2 개선점(기술적) >
개선점
세부 내용
아키텍처 최적화
Transformer 아키텍처 최적화를 통한 효율성 및 성능 향상
CLIP 사용
텍스트에 부합하기 위한 핵심 특징을 중간 형태로 텍스트 변환
확산모델(Diffusion Model)
새로운 확산모델 신경망 이용, CLIP 만족하는 이미지 생성
손실 함수 개선
이미지 품질과 일관성 향상
편향성 감소
균형 있는 데이터 세트, 편향성 감지 및 수정 알고리즘 적용
□ DALL-E 활용 사례
▶ 창의적 영감 제공
예술가나 디자이너가 영감을 얻기 위해 다른 예술 작품이나 디자인을 참고하듯이 사용자에게 창의적인 시각 자료를 제공할 수 있다. DALL-E를 통해 사용자가 생각하는 단어를 입력하면 네 가지의 다른 이미지를 생성하기 때문에 상상력을 강화하는 도구로 사용할 수 있으며, 동시에 창작의 시간을 많이 절약할 수 있다.
< 그림3. DALL-E 이용한 창작 이미지 >
▶ 상업 이미지 제작
디자이너, 비디오 크리에이터, 광고 홍보 대행사 등 소비자와 직간접적으로 영향을 미치는 분야에서 DALL-E를 통해 광고와 홍보, 마케팅의 시간과 비용을 단축하는 데 적극적으로 이용하고 있다.
< 그림4. DALL-E 이용한 잡지 이미지, 코스모폴리탄 >
▶ 시제품 제작 활용
DALL-E를 실제 디자인 제품을 만들기 전 검토를 위한 시제품 작업의 프로세서에 활용할 수 있다. DALL-E 기능에는 이미지 일부분만 수정하고 지워진 부분에 단어를 입력해 새로운 이미지가 자연스럽게 이어지도록 할 수 있는 편집기능이 있다. 이 기능을 통해 여러 아이디어를 시각화할 수 있어 시간 및 비용 절감에 큰 도움이 될 수 있다.
< 그림4. DALL-E 편집기능 활용 예, OpenAI >
□ 결론
▶ DALL-E의 윤리적 사용
DALL-E 기술은 현재 예술과 디자인 분야를 넘어 교육 및 연구, 소셜 미디어, 엔터테인먼트 분야까지 다양한 분야에서 큰 영향을 끼치고 있다. 독창적인 아이디어를 위한 브레인스토밍 역할을 하고 있으며, 교육 및 연구 결과 내용을 시각화하여 좀 더 쉽게 지식을 공유하는 데 활용될 수 있다. 콘텐츠 생산자로선 재미있고 독창적인 이미지를 DALL-E를 통해 만들어 좀 더 소비자에게 다양한 소재의 콘텐츠를 제공하는 데 활용할 수 있다. 하지만, 이렇게 활용성이 높은 만큼 악의적인 목적으로 사용될 수 있는 경우도 발생하고 있다. 가장 대표적인 예로 가짜뉴스를 들 수 있다. 사람들이 속이기 위한 목적으로 이미지를 조작하는 데 활용되기도 한다. 또한, 너무 DALL-E를 통해서만 이미지를 제작하면 자신만의 아이디어를 생각해 내지 못하게 되는 상황도 염려된다. 이렇듯 DALL-E는 이미지 생성에 있어 강력한 도구이지만, 사용하는 우리 역시 책임감을 느끼고 사용할 필요가 있다. 기술의 잠재적인 위험을 인식하며 우리 스스로 윤리적인 자세를 가지고 사용하는 것이 올바른 기술 발전의 토대라 말할 수 있을 것이다.
내가 인공지능(AI) 공부를 시작한 이유. IT를 전공했지만, 전공을 살리지 않고 사회 생활을 한 지 약 10년이 되었다. 정확히 말하면, 지금부터 1년 사이에 우리 사회는 엄청난 변화를 맞이했다. 인공지능의 발전이 미래의 사회를 많이 바꿀 것이라는 예상은 이미 있었지만, ChatGPT-3.5의 등장으로 인해 우리 사회는 큰 변화를 겪게 되었다. 우리가 상식으로 알고 있는 것들을 모조리 한 순간에, 단 몇 초만에 만들어내는 결과물을 볼 수 있다. 물론 결과물이 완벽하지는 않지만, 작업 시간을 엄청나게 단축시키고 나처럼 글쓰기 능력이 없는 사람들에게 작은 나침판이 되어주는 플랫폼이다.
ChatGPT의 등장 이후로 많은 사람들이 이를 이용한 자동화 시스템을 통해 부업 결과물을 내고 있다. 나 역시 처음 시작은 자동화를 이용한 부업, 새로운 경제적 파이프라인 구축을 위해 접근하였다. 투잡으로 시작한 인공지능은 어느 순간 개인적인 호기심으로 접근하기 시작하면서, ChatGPT-3.5 이후 지속적으로 공개되는 다양한 인공지능 플랫폼을 체험하기 시작하였다.
이러던 와중에 기존에 다니던 회사에서 내부적인 문제로 인해 이직을 준비하게 되었고, 채용 공고를 보던 와중에 인공지능 협회 채용 공고를 보게 되었다. 별 기대없이 이력서를 제출했고, 얼마 후 면접 연락을 받게 되었고, 면접 이후 탈락이라고 예상했던 나는 최종 합격 연락을 받게 되었다.
최종 합격 후 남은 시간 동안, 마치 시험 전날 벼락치기 공부 하듯이, 최대한 인공지능 분야에 익숙해지기 위해 관련 기사와 유튜브 영상을 찾아보았지만, 입사하고 보니 분야 자체도 어려웠지만 이전 기업과의 수준 차이도 느껴졌다. 나름 경력직으로 입사했지만, 단순 보고서 작성부터 수준이 다르기 때문에, 사실상 거의 신입 수준에서부터 다시 시작하고 있다. 첫 발표한 보고서 피드백은 절망 그 자체였다. (주변에서 입사 한 지 얼마 되지 않았으니 적응이 우선이라고 위로 해주었지만… 사람 마음이라는 게 어쩔 수 없듯이 하루 빨리 내부적으로 인정 받아서 하루 빨리 자리 잡고 싶은 생각이 크게 자리 잡고 있으니 말이다.)
그래서 이렇게라도 나 스스로 공부를 시작하게 되었다. 백날 혼자 공부한다 해도, 이 분야 전문가를 따라잡을 순 없지만, 적어도 함께 대화하며 알아들을 수 있게, 적어도 이 분야 지원 사업 계획서를 수준 높게 작성할 수 있는 수준으로는 내가 발전해야 할 것 같다. 이 방법이 100% 완벽하지는 않겠지만, 아무것도 안 하는 것 보다는 훨씬 나을 것이다.
아무튼, 이러한 나의 공부가 조금이나마 도움이 되길 바란다. (나 혹은 다른 분이든 말이다.)