当前位置:
首页 > 字体文章 > 国产字体免费制作 Chatgpt O1全血版本在线!在实际测试中,它实际上损失了国内AI?

国产字体免费制作 Chatgpt O1全血版本在线!在实际测试中,它实际上损失了国内AI?

12月5日,Openai正式推出了Chatgpt的两种新的AI车型O1和O1-Pro。其中,实际上已经使用了O1模型,但是当时它被称为O1-preiview,并且仅打开了O1模型的某些功能。现在,新版本已删除了预览,这也意味着O1模型的全血版本终于正式启动了。

资料来源:Lei技术

从简单的测试来看,O1模型的全血版本已经支持上传图片和文件,在此之前,它只能输入文本,这意味着已经添加了多模式的理解。但是,尚未启动Web搜索功能,这是一个可惜。

关于O1的全血版本的改进,OpenAI CEO Ultraman与简单的条形图进行了比较:可以看出,在数学推理和编程领域,O1的性能明显优于O1-preview,而改善了约50%。在科学研究领域,O1与O1-preiview相比的性能受到限制。

资料来源:Openai

考虑到可以不用额外钱使用O1模型,对于有需要的用户来说,它仍然非常值得。但是,这次Openai的意图与葡萄酒无关。与O1的免费升级相比,新的O1-Pro是亮点。但是,如果您想使用O1-Pro,则必须订阅新的200美元软件包才能获得优先级,这对于目前AI领域的个别用户来说也是最昂贵的订阅解决方案。

从OpenAI给出的性能比较图表来看,O1-Pro确实在O1的基础上取得了一些改进,但改进并不大。对于普通用户,O1型号可以完全满足日常使用,也无需订阅O1-Pro的$ 200包。

当然,$ 200的软件包不仅提供了O1-Pro,而且还提供了使用O1模型和高级语音功能无限的权限(此处未列出O1-PRO,并且估计的用法数量估计)。如果您认为O1的问题数量还不够,那么200美元的包裹是单个用户的唯一选择。

由于有一个新模型,我们必须对其进行测试。 Lei Technology的测试主要针对O1全血版本的多模式能力,还邀请了两个国内AI朋友参加比赛(Kimi和Wen Xinyiyan)。

O1的全血版本的实际测试体验不是“无敌”

O1模型的强度在于数学和其他方面的先进推理。因此,从您擅长的地步开始,一个数学计算问题并不困难:

假设一家公司生产某种商品,生产成本和产出之间的关系为c(x)= 3x^2-2-2x + 5(单位:百万元),其中x是输出(单位:千零件)。市场销售价格和产出之间的关系为p(x)= 50-0.5倍(单位:10,000元/1,000件)。

1。在生产X千项目时找到公司的总利润函数L(X)。

2.确定公司应生产的数千件物品以获得最大利润并计算最大利润。

首先,让我们看一下国内AI的答案:

基米

温新的话

国内AI都给出了相同的答案:188.14亿元人民币,所以让我们看一下Chatgpt-O1。

O1

O1模型给出的答案也是18.814亿元人民币,这与问题本身的标准答案一致。这三个AI都通过了测试。但是,您实际上可以看到与答案的屏幕截图的区别。 O1模型显示了大量的计算过程,这使用户更容易检查推理过程是否正确。

这也与O1模型的主要目的有关。从本质上讲,O1模型是为科学研究和其他目的而设计的,因此在提出答案时,您将更多地关注推理过程和正确性,而不仅仅是输出正确的答案。

接下来,让我们尝试直接提出图片的问题,这使我们能够输入一些抽象的数学问题,例如小学四年级的奥运会问题:

这仍然是查看国内AI答案的日常工作:

基米

温新的话

这两个国内AI分别为A和B提供了选择。 Kimi的推理过程非常长,因此她直接以高级数学的形式分析了这一小学奥林匹克数学问题。

让我们看一下O1模型的答案:

O1

O1模型给出的答案也是B,那么这是否意味着Kimi是错误的?答案不是,这个问题的正确答案实际上是A。换句话说,O1和Wen Xin在一个句子中是错误的。由于Wen Xinyiyan没有给出详细的推理过程,因此无法查看错误地计算了哪个步骤。 O1模型在分析图片时显然错误地判断了数字的数量,这最终导致了答案的推断。

在这个问题上,我们实际上可以看到,当AI模型处理类似的图形问题时,问题的解决方案是不同的。 Wen Xinyiyan和O1都试图通过直接找到图片规则来计算答案,这与解决问题时人类的思想相似。 Kimi将图方程直接转换为方程,然后执行计算。

在效率方面,O1和Wen Xinyiyan的推理方法绝对是更大的计算功率,但是如果分析和拆卸能力无法保持不变,那么这次将会像这次一样提出错误的答案。尽管Kimi的推理过程将消耗更多的计算能力,但也确保了答案的准确性。

从企业的角度来看,为了提高推论效率并降低推理成本,采用图形推理解决方案自然是最好的选择。但是,考虑到O1本身的高级模型属性以及OpenAI给出的科学研究助理的定位,如果给出错误的答案以节省计算能力,则可能很难说服用户。

让我们看一下编程的性能。问题并不困难:

我想制作一个可以每小时检查计算机网络连接状态的软件。如果网络连接中断,请重新启动计算机。如果网络连接正常,它将维护现状

两个国内AI都很快给出了答案:

基米

温新的话

由于需求非常简单,因此虚拟机在简单测试后成功运行。但是,我们可以看到两个国内AI的答案略有不同。 Kimi用《代码》中的灰色字体评论,而Wen Xinyiyan提醒他采取了其他预防措施,并提醒他安装运行时库,并提出了更多的编程建议。

那么O1模型呢?答案如下:

O1

从O1模型的答案来看,这是一个分为三个部分完成的答案。首先,它给出了实现想法,然后给出了演示代码和评论,并最终分析了代码编写过程,并提供了测试想法和替代解决方案。它集中了两个AIS的优势。对于初学者来说,O1模型的体验可能会更好。

从生产力的角度来看,O1模型确实在特定领域表现良好,但是国内AI的性能还不错。其中,Kimi更令人惊讶,并且是唯一正确回答所有测试问题的AI。

测试结束了,但是我仍然想看看O1模型的性能与日常现场的普通模型之间有什么区别?

因此,我提出了另一个其他问题,在互联网上搜索了草莓派的照片,并询问AI如何制作照片中的甜点。

基米

温新的话

O1

所有三个AI都很容易识别甜点的类型,并提供了类似的食谱。但是,O1模型的答案是详细说明每个步骤的操作方法和预防措施。相对而言,国内AI的步骤要简单得多。如果您是有烘焙经验的人,那么国内AI食谱就足够了,但是对于新手来说,O1模型食谱的成功率显然会更高。

AI的下一步是学会真正“思考”

总体而言,O1模型在完善答案方面确实具有明显的优势,并且在您需要查看推理过程或获得更详细的答案的某些情况下体验会更好。但是,从答案的准确性来看,O1实际上没有比当前国内AI的优势,而且其性能不如Kimi。

此外,国内AI还可以通过询问和其他方法获得更详细的答案和推理过程。在大多数情况下,O1模型实际上没有明显的优势。例如,当我每天使用Chatgpt时,Chatgpt-4O可以满足需求,在非常罕见的情况下,将使用O1型号。

作为Chatgpt的长期用户,我认为O1模型实际上更适合科学研究人员和财务分析师等职业。他们使用大量的数学工具,并在日常工作中进行多种推论。目前,在解决这些问题时,O1模型的多步推理过程将比普通AI表现更好。

至于O1-Pro,实际上国产字体免费制作,从我发现的其他用户的测试结果来看,答案的质量与O1模型的质量没有太大不同。两者之间的区别在于,O1-Pro可以调用更多的计算能力,反复验证答案的正确性,并尝试提供更详细的推理过程。

实际上,实际上已经开始显示出细分的迹象。在此之前,许多AI公司想建立一个大型且全面的多模式模型,但发现成本很高国产字体免费制作,效果不好,诸如“幻觉”之类的问题一直很难解决。

Chatgpt-O1无疑提供了另一种解决方案。凭借足够的计算能力,AI可以首先对问题进行深入的“思考”,然后根据思维结果进行计算。您可以以这种方式理解。 O1首先尝试分析问题本身,然后根据分析结果解决问题。普通AI直接分解问题关键字,然后根据算法调用相应的数据并结合输出。尽管此方法响应迅速,但很难保证答案的准确性,尤其是在面临一些复杂问题时。

因此,我们可以看到Kimi和Wen Xinyiyan实际上正在学习以不同的方式“思考”,而不是根据算法和数据强行组合答案。基米的表演给我留下了深刻的印象。作为唯一在数学测试会话中正确回答所有内容的球员,他可以不付款而使用它,而且成本效益和经验都已充分。

老实说,如果不是为了方便查询外语材料并关注AI的前沿,Chatgpt的20美元订阅确实没有成本效益。免费的Kimi以及各种代理商和官方工具的提供以及更普遍的Wenxinyiyan是更具成本效益的选择。

2025年1月7日,CES(国际消费电子展览会)2025将被大放异彩。 Lei技术报告小组准备飞往美国拉斯维加斯,以报告整个过程。请继续关注。