[KT 에이블스쿨 - IT 트랜드] SF영화의 실사판, ChatGPT-4o

      


    KT 에이블스쿨에 참여하면서 IT 트렌드 스터디하고있는데,
    발표자료로 오늘은 ChatGPT 4-o 내용을 준비했다. 





    ChatGPT-4o 모델

    출시일 : 2024.05.13 

    특징 : 텍스트 - 이미지 · 영상 - 음성을 동시에 처리하는 최초의 멀티모달 AI 

    차별점 : 사람의 감정을 이해함... 

     

    GPT-4o의 o는 omni (옴니), "모든"을 뜻함








    ChatGPT-4o 주요기능

    1. 멀티모달 처리 능력

    종합처리 ( 텍스트 - 음성 - 이미지, 영상)

    텍스트의 성능은 GPT-4 Turbo 성능과 일치하나, 영어 외 다른 언어의 개선이 있고 빠른 장점


    주로 미드저니에서 처리하던 텍스트 -> 이미지 생성을 잘 처리하고,

    트랜스포머 알고리즘으로 처리하던 인터뷰나 회의 대화와 같은 음성 파일을 텍스트로 요약 처리하는 기능, 

    동영상 내용을 요약하는 기능 등 

    유형별로 나눠져있던 생성형AI가 통합됨 


    화면의 모습을 이해하고 설명



    2. 감정 인식 

    스마트폰 카메라로 사용자의 표정을 분석하고 반응함 

    AI가 감정을 이해하고 대응 가능

    AI가 아재 농담도 이해함 

    28초 



    3. AI와 인간의 상호작용

    GPT가 말하는 중간에 끊어도 잘 알아듣고, AI의 말투 · 억양 변화가 가능


    가위바위보 심판


    사람과 AI의 상호작용은 물론, AI-AI-인간 이렇게 소통도 가능 

    두개의 chatgpt-4o가 서로 소통


    4. 지연시간 감소

    음성 응답 지연시간이 기존 모델보다 줄어들어 인간과 비슷한 응답속도

    232 밀리초 안에 음성 출력이 가능한데, 평균 320 밀리초인 인간의 응답속도와 비슷함.

    실제 시연영상에서도 불편함없이 상호작용하는 모습이 보여짐

    또한, GPT가 말하는 도중, 말을 끊고 사람이 대화를 해도 매끄럽게 이어짐. 



    5. (비즈니스) API 비용 절감

    API 사용 비용이 절감되고, 처리속도가 2배로 빨라져

    다양한 외부 서비스에서 널리 사용될 예정





    ChatGPT-4o 처리속도가 빠른 이유

    기존방식 

    ChatGPT-4o 이전 버전에서 음성을 처리하는 방법은

    ① 입력값으로 받은 사람의 음성을 텍스트로 변환

    ② 텍스트(변환한 입력값) 을 처리해 텍스트로 출력 

    ③ 텍스트(출력데이터)를 음성으로 다시 변환해 최종 출력 

    3단계를 거쳐야하는 프로세스였기에 처리시간이 오래걸렸음 

    + GPT-3.5 버전에서는 평균 2.8초 

    + GPT-4 버전에서는 평균 5.4초 


    GPT-4o 방식

    하나의 새로운 모델로 텍스트 - 음성 - 영상을 처리함

    하나로 된, 같은 뉴럴 네트워크를 사용해 처리함 

    따라서, GPT-4o는 최초로 이를 다 통합한 모델이기에 처리속도가 빠름

    + GPT-4o 버전은 232 밀리초 





    ChatGPT-4o 출시

    미국 : 일부 테스터들만 모든 기능을 사용 가능

    한국 : 텍스트 및 이미지 기능만 사용 가능, 음성 모드는 몇 주후 순차 적용될 예정 

    무료로 제공될 예정 




    SF영화 her의 실사판 

    2013년에 개봉된 감정을 표현하는 AI와 사랑에 빠지는 SF 영화 "her"의 현실판을 보는 것같다.

    영화의 미래 속 모습에서, 주인공은 사람의 음성 만으로, 사랑편지를 AI가 적어주는 직업인데

    Open AI 사의 소개 페이지에서도 이런 모습이 보여서 놀랍다. . 

     






    비즈니스 활용 

    시각장애인

    어린이 동화 읽어줄때 

    심리치료

    길찾기

    학습 : 언어공부 /  수학

    실시간 통역 

    디자인 제작 (+ 3D 프린팅) 

    Apple 시리 (예상) 


    등등

    일상에 무수히 많아질 것 


    AGI (인공 일반 지능)의 미래가 다가온 느낌 



    ChatGPT-4o의 악영향

    1. 일자리

    특히, 통역이나 공부의 상당한 부분이 AI로 대체될 것 같다. 


    2. 멀어지는 인간관계

    현재도 사람들이 인간관계로 스트레스를 많이 받아해서 힘들어하는데

    이렇게 사람같은 AI가 나오면, 사람끼리 대화하는 것보다 AI한테 심리치료하거나

    소통하는 경우가 많아질 것 


    3. 개인정보

    OpenAI, MS가 수집하는 우리의 음성, 영상화면 등을 다 수집하면 개인정보 상당히 우려됨 


    4. OpenAI의 의존성 

    출시한 지금은 API 가격이 낮지만, 대체할 API가 없을만큼 강해진다면 의존성이 강해해질 것

    나중에 의존성이 높아졌을때, OpenAI가 가격을 높이면 다른 방도가 없음 


    5. 비판적 사고력

    생각하고 고민하기도 전에 AI한테 묻고 처리하기에 스스로 생각하거나 판단, 사고하는 능력이 날아질 것같다. 


    6. 사기에 활용 


    7. AI 지배

    Ai가 Ai랑 서로 얘기를 하고, 지능을 높이면 나중에는 AI가 인간을 지배하는 sf 영화같은 상황이 벌어지는건 아닐꺼 





    댓글

    이 블로그의 인기 게시물

    [KT 에이블스쿨 - IT 트랜드] 국내외 AI 관련 규제

    KT 에이블스쿨 : 핀테크 아이디어 공모전

    KT 에이블스쿨 : 6-7차 미니프로젝트 - 제안서 기반 솔류션 기획 및 설계