Poe和SurgeAI合作,对主流LLM的四个属性进行了系统评估
Poe和SurgeAI合作,对主流LLM的四个属性进行了系统评估:包括推理、写作、创造力和非英语流利程度。下面是一些结果:
GPT4 在所有维度上都赢得了比赛(不计算速度和价格),但有一些值得注意的地方排在第二位。
Google 的 PaLM 在非英语语言能力方面击败了所有其他竞争者,有效支持了最广泛的在线人群语言。这以前好像没有报道过。
Claude 2 在推理方面排名第二,涵盖解决数学问题和编程挑战等任务。
Llama 2 70b 在与SurgeAI 共同进行的人工智能专家评估中,在写作和创造力方面获得第三名。