inspiration

실시간으로 '보고, 듣고, 말하는' 옴니모델 ChatGPT-4o

Artist'sNote 2024. 5. 17. 05:09

많은 사람들을 충격에 몰아넣어던 ChatGPT-4o 공개 데모 영상. 

너무나 자연스러워진 실시간 AI와의 대화, 보고, 듣고, 말하기의 형식이 인터렉티브하게, 이제 실제적인 실시간 소통이 가능해졌다. 

데모 영상에는 잠자기전 베드 타임 스토리를 만들어주되, 어떤 톤으로 변형할 수 있는지까지 보여주고, 이미지 인식을 통해 종이에 적은 수학 문제를 답을 유도해내면서 가르쳐준다. 실시간 통역과 앞으로 데스크탑 버젼이 나오면 내 컴터 화면 공유를 통해 코딩문제 뿐 아니라 도표까지 분석 가능하다. 기존에 텍스트 위주의 형식에서 마치 AI에게 눈과 입과 귀가 생긴 것이다. 거기다 감정을 읽고 감정을 실어서 말하기까지... AI가 이정도까지 된다고? 너무나 충격적이였던 데모 영상이였다. 곧 ChatGPT-4o를 무료 사용 가능하게 한다는데 아직까지는 아닌 것 같다. 프리플랜 쓰는 사람에게는 아직 3.5 turbo까지 사용해볼 수 있는 것 같다. 구입하면 아마도 ChatGPT-4o 사용해볼 수 있을텐데, 고려해야하나 고민이 된다. 
고민고민 하다가 결국 4o를 너무 써보고 싶은 마음에 플랜 구입하고, 대화해보니 이렇게 신세계가 따로 없다. 특히 좋은 것은 내가 영어 튜터에게 말하듯이 필요한 영어 문장을 연습하도록 하고 롤플레잉도 가능하다는 것. 무료 버젼이 사용숫자의 제한이 있다고 들었는데, 익숙해지면 너무 의존하게 될 것 같아 두려운 마음도 든다.

 

The video introduces GPT-4o, a new flagship model with GPT-4 level intelligence that aims to make advanced AI tools accessible to everyone. It showcases real-time conversational speech, vision capabilities, coding assistance, language translation, emotion recognition, and more. The focus is on enhancing user experience by making technology more intuitive and natural, while also highlighting safety measures and future advancements in AI collaboration.
 

Launching GPT-4o model and desktop version

- Importance of accessible product for everyone, reducing friction for ChatGPT use.  
- Introducing GPT-4o model with Brain GPT-4 intelligence for all users.   
- Mission to make advanced AI tools free and easily accessible to all.   
- Simplified, easy-to-use ChatGPT with refreshed UI for natural interactio

 

Advancements in GPT Usage

AI Flagship Model Release
  - The GPT-40 is released as an improved flagship model boasting GPT-4 intelligence, faster speed, and  enhanced capabilities in text, vision, and audio.
  - Previous focus on intelligence improvement shows significant progress, with a major advancement in user-friendliness for future human-machine interaction.
  - GPT-40 is predicted to revolutionize collaboration by simplifying and naturalizing interactions, but the process of making this shift is quite complex.

Voice mode enhancements with GPT-4
   - Interactions in dialogue: tone, interruptions, background noise, and multiple voices are now enhanced.
   - GPT-4 integration: Transcription, intelligence, text-to-speech come together for improved user experience.
   - Efficiency boost: GPT-4 across voice, text, and vision improves collaboration with ChatGPT users.
   - Excitement for launch: After months of effort, GPT-4 intelligence now available to all users.

Advancements in GPT Usage 
   - Expanding GPT-4 access to free and paid users, with enhanced capacity.
   - Introducing GPT-4 API for developers to create AI applications.
   - Addressing safety challenges with real-time audio and visual data.
   - Collaborating with stakeholders for safe deployment of new technologies.

  

How to Craft Bedtime Stories?

  • Bi te w was a curious robot exploring.
  • It found another robot friend and lived happily ever after.
  • The robot showcased singing and voice capabilities.
  • The robot demonstrated problem-solving through a division question.
  • The robot guided the user to the correct mathematical operation for the solution.
 

Math Problem Discussion

  • Barrett Zoph seeks help to work through a linear equation on paper.
  • Chat GPT assists by guiding Barrett on the initial step to solve the equation.
  • Barrett successfully completes the subtraction step in solving the equation with Chat GPT's guidance.
  • This interaction depicts a collaborative problem-solving session on a math equation.

 

Understanding Emotions in a Selfie

 
  • John asked if GPT-4o can determine emotions by looking at a person's face.
  • Barrett Zoph decided to test this by showing a selfie to GPT-40.
  • GPT-4o initially misidentified the image as a wooden surface.
  • After a second look, GPT-4o correctly identified Barrett's emotions as happy and cheerful.
  • Barrett confirmed his good mood was due to the presentation showcasing GPT-40's capabilities.
 

 

이 비디오를 어떻게 블로그에 올릴까 고민했는데, lilys ai를 통해 요약본을 쉽게 얻어낼 수 있었다. AI로 유튜브 분석과 블로그 콘텐츠까지 너무 쉽게 생성할 수 있게 되었다는 사실에 정말 놀라움을 금할 길이 없다. 

 

https://lilys.ai/

 

Lilys AI : 릴리스에이아이 - 영상을 넣으면 깔끔한 요약노트로

릴리스에이아이(Lilys AI)에서 영상의 요약 노트를 몇 분만에 만들고, PDF에서 여러분이 원하는 것을 더 쉽게 찾아보세요

lilys.ai