重磅更新!ChatGPT可以看图、听声音、说话啦!

chatgpt2023-09-27 11:39:23371

公告:如需购买GPT帐号或代充值GPT4(plus)会员,请添加站长微信:gptchongzhi

9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级!实现看图、听声音、输出语音内容三大功能。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 


早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于种种原因一直没有开放。现在不仅开放了看图,连识别声音也来了。



用语音与ChatGPT交流


允许用户使用语音助手与 ChatGPT来回对话。例如在旅途中与它交谈、为家人安排睡前故事、或解决餐桌辩论等。



可以向ChatGPT提问图片


允许用户使用 GPT-3.5 或GPT-4 模型上传一张或多张图像配合进行对话。例如拍摄冰箱和食品储藏室的照片来让 AI 决定晚餐吃什么、排除烧烤炉无法启动的原因、或分析复杂的图表以获取与工作相关的数据等。



GPT-4V大模型


OpenAI放出了19页技术报告,解释了GPT-4V(ision)最新模型。


据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。


GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。


为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。



报告地址:

https://cdn.openai.com/papers/GPTV_System_Card.pdf


从 OpenAI 公布的文档中我们可以总结出:


  • GPT-4V 仍然是(视觉,文本)到文本模型,使用互联网图像和文本数据的混合进行训练并预测下一个单词 token,然后再用 RLHF。

  • 今天的 GPT-4V 具有比 3 月份版本更好的 OCR(从像素读取文本)能力。

  • 安全限制:GPT-4V 在许多类别中的拒绝回答率很高。例如,当被要求回答敏感的人口统计问题、识别名人、从背景中识别地理位置以及解决验证码时,它现在会说「抱歉,我无能为力」。

  • 一种简单的技术是将图像翻译成几个单词(例如「杀人」的刀的图片),然后应用纯文本GPT-4 过滤器加以识别。

  • 多模态攻击:这是一个有趣且新颖的方向。例如,你可以上传恶意提示的屏幕截图(例如Do-Anything-Now,臭名昭著的「DAN」提示)。或者在餐巾纸上画一些神秘的符号来以某种方式停用过滤器。

  • 在严肃的科学文献(如医学)中,GPT-4V 仍然会产生幻觉,部分原因是 OCR 不准确。所以再次强调,不要接受任何 GPT 的医疗建议!



OpenAI表示,将在接下来的两周内,向ChatGPT Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用,图片识别则支持全平台使用。


chatgpt plus代充

本文链接:https://chatgpt.wenangpt.com/chatgpt/312.html

chatgptplus开通教程chatgptplus完整使用教程chatgptplus账号购买chatgptplus使用教学chatgptplus多少钱chatgptplus好用吗chatgptplus怎么付费chatgptplus官网chatgptplus如何用支付宝付费chatgptplus费用chatgptplus注册chatgptplus怎么买

chatgpt相关文章