본문 바로가기

ChatGPT 음성 및 이미지 기능 추가 멀티모달 생성형 AI

인공지능 by 아이티블로벌스 2023. 9. 26.

Contents

    어제 오픈 AI 블로그 기사를 보니 이제 ChatGPT가 새로운 음성 및 이미지 기능을 추가했다고 합니다. 멀티모달 기능을 지원하면 이제 음성 및 이미지로 ChatGPT와 소통을 하여 글로만 설명하기 힘들었던 부분에 대해 더 원활하게 대화할 수 있을 것 같네요.

     

     

    AI의 새로운 패러다임

    멀티모달 생성형 AI의 영향력이 어떤 것인지 알아보기 전에, 먼저 AI가 어떻게 발전해 왔는지 간단히 살펴보겠습니다. 초기에는 단순한 계산을 수행하는 기계에서 시작해, 지금은 이미지, 텍스트, 음성 등 다양한 형태의 데이터를 처리할 수 있는 고도화된 시스템으로 발전 하고 있습니다. 그럼 멀티모달 AI란 무슨 의미 일까요?

     

    멀티모달 AI란?

    멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리할 수 있는 AI를 의미합니다. AI가 보고 듣고 말하기 모든 것이 가능해 졌다는 것이죠. 이는 기존의 단일 모달 AI와는 다르게, 인간과의 소통을 더 원활하게 하여 더 풍부한 정보를 제공하고 다양한 문제를 해결할 수 있게 되었습니다. 

     

    ChatGPT 음성 및 이미지 기능 활성화 하기

    먼저 ChatGPT를 업데이트를 하고 Settings 설정에 들어가면 New Features 새 기능을 눌러주세요. 새 기능을 눌러서 초록색으로 활성화 시켜 주시면 이제 ChatGPT 화면에서 헤드셋 모양을 보실 수 있어요. 처음 사용할 때 목소리 설정이 있는데 영어만 여러 목소리가 가능한 것 같아요. 이제 헤드셋 모양을 눌러서 음성으로 ChatGPT와 대화할 수 있습니다.

    음성으로 대화한 내용은 자동으로 저장되어 활용할 수 있습니다. 아직 이미지 탭이 활성화 되지 않아서 오늘은 테스트를 못해봤네요. 이제는 냉장고 내부를 찍어서 ChatGPT에게 무슨 요리를 하면 좋은지도 물어보고 여행에서 중요한 관광지에 도착해서 그 곳에 관련한 재미있는 이야기를 물어볼 수도 있을 것 같습니다.

     

    멀티모달 AI는 의료 분야에서는 이미지와 의료 기록, 환자의 음성 데이터 등을 종합적으로 분석하여 더 정확한 진단을 내릴 수 있고 스마트홈 시스템에서 멀티모달 AI를 활용하면, 사용자의 목소리와 얼굴을 인식하여 더 안전하고 편리한 서비스를 제공할 수 있다고 합니다. 앞으로 짧은 시간에 많은 것들이 바뀔 것 같은 느낌입니다.

     

    이제 블로그로 정보 찾는 시대도 얼마 남지 않은 것일까요? 멀티모달 생성형 AI는 우리 생활과 산업에 많은 변화를 줄 것 같습니다. 하지만 그만큼 예상하지 못한 문제들도 당면하게 되면서 더욱 발전된 AI 기술이 탄생하겠죠.