ChatGPT modo de voz avanzado con visión
ChatGPT adquiere visión con el modo de voz avanzado
El 12 de diciembre de 2024, OpenAI presentó una de las actualizaciones más significativas para ChatGPT: la integración de capacidades de visión en tiempo real dentro del modo de voz avanzado. Con esta nueva funcionalidad, los usuarios pueden interactuar con la IA mediante video, voz e imágenes, revolucionando los casos de uso en diferentes campos.
Sin embargo, Google se adelantó de una manera más contundente al darle “visión” a la que es la competencia directa de OpenAI, Gemini 2.0 Flash experimental, con una versión que le ha permitido tener mayor diversidad de casos de uso por haberla habilitado primero en la web (y posteriormente en enero 2025 lo desplegarán en la app de gemini) y además con la opción de prueba temporal gratuita en la fase experimental en Google AI Studio, donde se encuentra las nuevas funciones (visión, voz y compartir pantalla) en la zona Live Stream.
Esto le ha otorgado una ventaja temporal significativa a Gemini 2.0, ya que, a diferencia de ChatGPT, que requiere de un pago mensual y limita las conversaciones del modo de voz avanzado a 15-20 minutos por día, Gemini 2.0 Flash experimental no tiene esos límites. Además, permite compartir directamente la pantalla de la computadora, lo que habilita usos más específicos, como compartir documentos para afinar la redacción, hojas de cálculo como excel o google sheets, programación, traducción de documentos, y hasta videojuegos (lo testeé con ajedrez y funciona 8 de 10).
¿En qué consiste el Modo Avanzado de Voz con Visión de Chat GPT?
A diferencia de Gemini, la opción de voz avanzada con visión de chat gpt está en una primera instancia disponible en la app (y posteriormente en enero 2025 llegaría a la web y app de escritorio), y combina las capacidades de interacción mediante videollamada (voz y visión en tiempo real) a diferencia de Gemini que va capturando pequeños fragmentos de video pero siempre capturando automáticamente los fragmentos de forma rápida y que se activa al escuchar que el usuario empieza a hablar. Ahora, con Chatgpt los usuarios pueden utilizar la cámara de su dispositivo para mostrar objetos, capturar imágenes o compartir la pantalla de su celular (aunque esto es limitante versus una computadora de escritorio), y ChatGPT responderá basándose en la información que está registrando.
Por ejemplo, en el video demo adjunto, ChatGPT guió en tiempo real a un investigador de OpenAI para preparar café, proporcionando instrucciones paso a paso mientras observaba el proceso a través de la cámara.
También es capaz de resolver problemas matemáticos analizando dibujos o responder preguntas sobre capturas de pantalla compartidas.
Cómo acceder a la interacción con “visión” de chat gpt
Para utilizar el Modo de Voz avanzado con visión, es necesario seguir estos pasos:
1) Suscribirse a ChatGPT Plus, Team o Pro
Este modo está disponible exclusivamente para los planes premium, con un costo desde $20 mensuales.
2) Abre la aplicación de ChatGPT.
3) Haz clic en el ícono de “modo de voz” ubicado en la parte inferior derecha.
4) Selecciona el ícono de cámara para iniciar una sesión de video en tiempo real.
5) Para compartir pantalla, utiliza el menú de tres puntos y selecciona “Compartir pantalla”.
6) Puedes tomar fotos o subir imágenes para que ChatGPT las analice y brinde respuestas detalladas.
Casos de uso prácticos:
Por ahora son limitados los casos de uso empresariales, ya que su foco es la app enfocda más en usuarios finales (uso personal en su mayoría), y considero que no fue el mejor movimiento versus lo que ha realziado Gemini, sin embargo puede hacer lo siguiente:
a) Asistencia en tareas cotidianas: identificar objetos, analizar documentos manuscritos o brindar sugerencias culinarias al observar ingredientes disponibles en tu alacena.
b) Educación y aprendizaje: resolver problemas matemáticos, explicar diagramas o proporcionar retroalimentación en proyectos visuales.
Disponibilidad y futuras implementaciones
La funcionalidad está siendo desplegada gradualmente a nivel mundial para suscriptores de los planes Plus, Team y Pro. Los usuarios de los planes Enterprise y Edu deberán esperar hasta enero de 2025 para acceder a esta herramienta. En el caso de la Unión Europea el lanzamiento está pendiente por temas de cumplimiento regulatorio.
Además, OpenAI también introdujo un modo de voz especial, por el mes navideño, de Santa Claus, donde los usuarios pueden interactuar con una versión jóvial de ChatGPT que utiliza la voz de Santa, disponible al hacer clic en el ícono de copo de nieve en la barra de mensajes.
Por qué vale la pena probarlo
La opción de voz avanzada con visión pronto llegaría entre diciembre y enero 2025 a la aplicación de escritorio y a la web de chatgpt, lo que permitirá aumentar los casos de uso haciendo que la experiencia sea más intuitiva y poderosa. Desde estudiantes hasta profesionales, esta funcionalidad promete transformar la forma en que resolvemos problemas y realizamos tareas, y por ahora pueden irse familiarizando con la experiencia de usuario en la app móvil de chat gpt.
Gracias por leer “Innovar o ser cambiado”
Sigamos conversando en las redes sociales en donde me encuentras como @andygarciape (instagram, linkedin, tik tok, o fb) o encuéntrame en los buscadores de Google, o Bing como “Andy Garcia Peña”.
También te puede interesar leer:
- Google Gemini Deep Research vs Chat GPT. Andy Garcia Peña. Diario Gestión (14/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/gemini-deep-research.html
- Google Gemini 2.0 Flash destronó a Chat GPT. Andy Garcia Peña. Diario Gestión (11/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/gemini-rival-chatgpt.html
- Día 3 de los 12 días de Open AI: Sora. Andy Garcia Peña. Diario Gestión (09/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/sora-open-ai.html
- Guerra IA: Anthropic lanza Claude Styles. Andy Garcia Peña. Diario Gestión (09/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/anthropic-claude-styles.html
- Google Gemini 1206 superó a ChatGPT. Andy Garcia Peña. Diario Gestión (09/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/gemini-1206-chatgpt.html
- Guerra IA: Grok vs ChatGPT. Andy Garcia Peña. Diario Gestión (09/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/grok-vs-chatgpt.html
- 12 días de Open AI: Chatgpt pro a $200 y o1 pro. Andy Garcia Peña. Diario Gestión (05/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/chagpt-pro-o1.html
- Los 12 días de Open AI: Sora, o1 y mucho más. Andy Garcia Peña. Diario Gestión (05/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/12-open-ai.html
- ¿Amazon-IA? Amazon lanza Nova AI. Andy Garcia Peña. Diario Gestión (05/12/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/12/amazon-nova-ai.html
- Eleven Labs vs Google Notebook LM: podcast IA. Andy Garcia Peña. Diario Gestión (29/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/eleven-labs-genfm.html
- La IA de Alibaba QwQ reta a Open AI o1. Andy Garcia Peña. Diario Gestión (29/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/alibaba-qwq-ia.html
- IA Agentes Autónomos: Runner H. Andy Garcia Peña. Diario Gestión (25/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/runner-h.html
- De China su IA: Deepseek r1 reta a Open AI o1. Andy Garcia Peña. Diario Gestión (22/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/de-china-su-ia-deepseek-r1-reta-a-open-ai-o1.html
- Mistral AI: la alternativa gratuita a ChatGPT Plus. Andy Garcia Peña. Diario Gestión (19/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/mistral-lechat-chatgptplus.html
- IA vs Doctores: ¿extensión o extinción?. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (18/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/ia-vs-doctores.html
- “Google Gemini Live: modo de voz activado”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (16/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/google-gemini-live.html
- Google Gemini supera a Chat GPT4o. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (15/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/google-gemini-exp1114.html
- Open AI: Work with apps ¿agentes autónomos con IA? Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (15/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/work-with-apps.html
- IA Comunicación Audiovisual: ¿Extinción? Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (14/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/ia-comunicacion-audiovisual.html
- “IA y el Estado Peruano: ¿Extensión o Extinción?” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (14/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/ia-estado-peruano.html
- “IA y programadores: extensión o extinción” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (13/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/ia-y-programadores.html
- “Lienzos de modelo de negocios con IA”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (13/11/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/negocios-con-ia.html
- IA y Artistas Gráficos: extensión o extinción. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (13/11/2024). URL https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/11/ia-artistas-graficos.html
- El adiós de google: Open AI lanzó Search GPT. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (31/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/el-adios-de-google-open-ai-lanzo-search-gpt.html
- “STORM: adiós a la redacción de artículos académicos?” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (29/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/storm-redaccion-articulos.html
- “Agentes autónomos IA: Claude se adelanta a Open AI” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (23/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/claude-agentes-autonomos.html
- “Google Notebook LM: IA para estudiantes”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (10/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/notebook-lm-ia.html
- “Tiembla Meta AI: Microsoft Copilot llega a Whatsapp”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (06/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/copilot-whatsapp.html
- “Madam Tusan: adiós a la tradición de 10 años”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (06/10/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/10/madam-tusan-adios.html
- “LetyMind: Entrevista a Andy Erazo”. Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (30/09/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/letymind-andy-erazo.html
- “IA: Hack-que mate a los centros de idiomas” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión (29/09/2024) https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/idiomas-ia.html
- “Chatgpt: modo de voz avanzado” . Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión. (26/09/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/chatgpt-voz.html
- “Hibridación: carreras universitarias” Blog “Innovar o ser cambiado” Andy Garcia Peña. Diario Gestión. (25/09/2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/hibridacion-carreras-universitarias.html
- “Hibridación: camino a la IA General”. Andy Garcia Peña. Blog: “Innovar o ser cambiado” vía Diario Gestión (Septiembre 2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/hibridacion-ia-general.html
- “o1: la hibridación de Chatgpt” (Septiembre 2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/o1-hibridacion-chatgpt.html
- Hibridación: Canvas en la Economía Circular (Septiembre 2024) URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/hibridacion-economia-circular.html
- “LetyMind: hibridación del reclutamiento”. (Septiembre 2024) URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/letymind-hibridacion-reclutamiento.html
- Fresas con crema: hibridación de pinkberry (Septiembre 2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/fresas-con-crema.html
- AI vs Docentes: innovar o ser cambiado (Septiembre 2024). URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/ai-docente.html
- “Hibridación: Poke Bowls, cuchareables y más” (Septiembre 2024) URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/hibridacion-cuchareables-bowls.html
- IA ¿hack-que mate a la educación universitaria? (Septiembre 2024) URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/ia-educacion.html
- “IA ROBOT: el futuro del trabajo en riesgo”. (Septiembre 2024): URL: https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/09/ia-robot-trabajo.html
- “Los cuchareables de creatividad e innovación: Alessandra Penny” URL (Septiembre 2024) https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/08/cuchareables-de-creatividad.html
- “Fijaciones mentales: Rompiendo las barreras para innovar” (2024) URL https://blogs.gestion.pe/innovar-o-ser-cambiado/2024/01/fijaciones-mentales-barreras-para-innovar.html
Fuentes y referencias
- Presentamos Gemini 2.0: nuestro nuevo modelo de IA para la era “agentic”. Google Blog. 11 de diciembre de 2024. https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
- ChatGPT Advanced Voice with Vision just launched — here’s how to try it, Amanda Caswell, Tom’s Guide (12/12/2024). URL: https://www.tomsguide.com/ai/chatgpt/chatgpt-advanced-voice-with-vision-just-launched-heres-how-to-try-it
- ChatGPT now understands real-time video, seven months after OpenAI first demoed it, Kyle Wiggers, TechCrunch (12/12/2024). URL: https://techcrunch.com/2024/12/12/chatgpt-now-understands-real-time-video-seven-months-after-openai-first-demoed-it
- OpenAI brings video to ChatGPT Advanced Voice Mode, Cecily Mauran, Mashable (12/12/2024). URL: https://mashable.com/article/openai-brings-video-to-chatgpt-advanced-voice-mode
- The Advanced Voice Mode of ChatGPT can be used with real-time vision, María Bastero, Marketing4eCommerce (13/12/2024). URL: https://marketing4ecommerce.net/en/chatgpt-advanced-voice-mode-real-time-vision/