先做个广告:如需购买GPT帐号或代充值Chatgpt Plus(GPT4)会员,请添加站长客服微信:GPTchongzhi(备注好你的需求)
9月25日晚,OpenAI为ChatGPT再次推出新功能。在集成DALL·E 3一天之后,ChatGPT被赋予了“眼睛”、“耳朵”和“嘴巴”,这意味着用户现在可以与其进行图像和语音对话,实现了多模态的交互。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
这项创新允许用户以全新方式使用ChatGPT,无论是在旅行中拍摄地标进行即时对话,还是在家拍摄冰箱来询问晚餐建议和食谱,都极大提升了用户体验。用户可以拍摄数学问题的照片,通过语音对话得到解答和提示。此次更新不仅提升了ChatGPT的多功能性,更重要的是,它革新了用户与AI的互动模式。
根据OpenAI的计划,付费用户将在接下来的两周内率先体验到这一新功能,而其他用户也将在不久后得到。
语音对话
ChatGPT的新语音功能允许用户进行双向对话。这一过程包括用户点击按钮发出语音命令,ChatGPT将其转换为文本并输入模型获得答案,最后将答案转换为语音输出。这背后得益于OpenAI的底层技术改进。
然而,新功能也带来了风险,比如可能被用于冒充公众人物或进行欺诈。为此,OpenAI将对模型实施严格控制,限制其在特定场景和合作伙伴中的使用。比如,OpenAI与Spotify等公司合作,实现播客的多语种翻译,以及其他创意应用。官方给出了一个例子,和之前DALL·E 3的例子一样,用语音让ChatGPT说了一个关于“超级向日葵刺猬”的形象和睡前故事。
新语音功能由一种新型文本到语音模型驱动,该模型能够仅通过文本和几秒钟的样本语音生成类似人类的音频。OpenAI与专业配音演员合作创建了这些声音,并利用开源语音识别系统Whisper将语音转录为文本。
图像交流
ChatGPT现已支持多模态交流,能够理解并响应用户提供的图像。用户还可以利用绘图工具明确询问,让ChatGPT关注图像的特定部分,优化回答,减少搜索错误。这一特性与Google的多模态搜索相似。多模态GPT-3.5和GPT-4模型驱动图像理解,将语言推理技能应用到各类图像上。
例如,用户可以通过拍摄自行车来询问如何提升座椅高度。若不清楚使用何种工具和步骤,用户也可拍摄工具询问ChatGPT,以获取详细指南。
官方提供的另一使用场景是:用户可以打开冰箱拍照,然后询问ChatGPT晚餐可以吃什么,ChatGPT将生成完整菜谱。
尽管图像功能提高了ChatGPT的互动性和实用性,但这也带来了新的挑战。从对人物的错觉到在高风险领域依赖模型的图像解释都涉及到新的问题和风险。在模型更广泛部署之前,OpenAI已与红队成员一同测试了模型在极端主义和科学熟练程度等领域的风险,并进行了一组多样化的alpha测试。
与此同时,为了保护个人隐私并确保准确性,ChatGPT已大大限制了其分析和直接谈论人物的能力。这表明,即便AI技术不断发展,某些科幻愿景,例如直接看着某人并询问:“那是谁?”还需要时日实现。
为了使视觉功能更安全更实用,OpenAI采取了一系列措施。例如,与Be My Eyes的合作帮助了解了视觉功能的使用和限制。这个免费移动应用是为盲人和视力障碍人士设计的,合作过程中得到的反馈帮助完善了ChatGPT的保护措施,确保了工具的实用性。
模型细节
这个多模态版GPT-4V早在2022年3月就已完成训练,而2023年3月开始提供早期访问。
能力与优势:
多模态能力:GPT-4V 能够处理和理解图像和文本,提供全面的信息处理能力。
物体和文本识别:模型能够识别图像中的常见物体和文本,具备OCR功能。
人脸和属性识别:有能力识别图像中的人脸及相关属性,如性别、年龄和种族。
视觉推理:在验证码解决方面展现了视觉推理能力,表现出高级解谜能力。
地理定位:能够识别和描述图像中的地理位置和特定地标。
盲人辅助工具:结合 "Be My Eyes" 的合作,为视觉受损人士提供了实质性帮助,能描述图像内容。
局限性与问题:
非英语文本支持不足:对使用非罗马字母的语言的支持有限。
复杂图像理解困难:难以准确解释复杂的科学图表、医学扫描或多重叠文本组件的图像。
隐私和安全风险:有泄露隐私和破解 CAPTCHA 的风险,可能被用于不正当用途。
对象和空间关系理解有限:在处理对象重叠、遮挡、细节和上下文推理方面存在困难。
科学研究和医疗应用不稳定:在这些领域中性能不可靠。
公众人物识别问题:在处理像艾伦·图灵这样的公众人物的图片时,是否应该识别出他们?
思考与方向:
伦理和隐私考量:模型的应用涉及隐私、公平性以及AI模型在社会中被允许扮演的角色的课题。
全球化和多样性:提高对全球用户语言的性能和增强与全球观众相关的图像识别能力变得关键。
人物图像处理:需要更高精度和复杂方式来处理包含人物的图像,并处理图像的敏感信息。
代表性伤害的减轻:需要进一步投资减轻可能源自刻板或贬低的输出的代表性伤害。
如果你觉得这篇文章有用,欢迎点赞、收藏和转发,也请关注我以获取更多关于人工智能的最新信息!
参考:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
https://cdn.openai.com/papers/GPTV_System_Card.pdf
https://twitter.com/OpenAI/status/1706280635055353929
https://twitter.com/OpenAI/status/1706280618429141022
本文链接:https://chatgpt.wenangpt.com/chatgpt/313.html
chatgptplus有什么区别chatgptpluschatgptplus下载chatgptplus试用chatgptplus版chatgptplus插件chatgptplus账号chatgptplus怎么付费订阅chatgptplus付费流程chatgptplus功能chatgptplus怎么充值chatgptplus如何充值