中秋国庆假期调休复杂,让 AI 帮 INTP 懒人做旅游攻略,测评大模型过日子水平
8月27日,中秋国庆假期调休消息冲上热搜,网友总结:“上6休3上3休2上5休1上2休7再上5休1。”
乍一看还以为是新式绕口令,琢磨了一下,大致是说,今年的中秋和国庆,从9月9日开始,先是上6休3(中秋节),再是上3休2,接着上5休1,然后上2休7(国庆节),最后上5休1,接连5周调休。
复杂是复杂了点,但中秋国庆假期嘛,热搜年年上,今年我准备把耳朵捂起来,不改变世界,只改变自己,给自己整点儿花活。
我让AI帮我做了一份旅游攻略,帮本 INTP 懒人做个计划,测评一下大模型的“过日子”水平。
本次参与测评的玩家为:Kimi、文心一言、智谱清言、豆包。
是:今年中秋节假期我想去秦皇岛旅游,请给我制定一份旅游攻略,包含住宿、饮食、交通、景区门票,预算控制在1000左右,3天2晚。
一共3个打分维度,分别是理解能力、攻略质量、使用体验,额外设置惊喜点加分。
接下来是Kimi、文心一言、智谱清言、豆包旅游攻略生成的细节,老规矩,着急的朋友直接下拉到打分环节看总评。
Kimi
首先是Kimi,输入后,经过28秒左右的等待,我拿到了以下内容。
可以看到,Kimi给了简单的行程安排和预算分配建议。住宿、饮食和景区门票的内容都可圈可点,煎焖子更是我在雨天秦皇岛,和卖甑糕的本地老板娘闲聊中收获过的推荐。但是排进了第一天行程中,从逻辑上我理解无能。
在第二天和第三天的行程中,一天海边沙滩娱乐,搭配小夜市,一天是日出和艺术馆,搭配生活化海鲜餐,信息质量是不错的。
在预算方面,按照Kimi给的中间值,700+400+75+160=1335,超预算约34%。最低值也是1070。
文心一言
再看文心一言,经过约47秒的等待,我拿到了住宿饮食推荐,景区和三天行程及预算等内容。
从文心一言提供的信息来看,属于抓大放小型,相较于Kimi提供了住宿的大致片区,文心一言给出了具体的酒店名称,抓取的商业信息较多。美食里则杂糅了食物名称和商家名称,如叶存利,其LLM或有待进一步提高。
去过秦皇岛的朋友大概知道,秦皇岛的景区分布从北向南依次应该是1山海关、2市中心(近秦皇岛火车站)、3北戴河(近北戴河火车站)、4南戴河阿那亚这几个板块,各个片区相距18km左右。
按照文心一言的安排,住在3,第一天1,第二天3,第三天2,如果从秦皇岛站返回,这是一条不错的路线,但如果从北戴河或机场离开,则不可避免的要折返。
不过,文心一言总结了每一个目的地的预算、游玩时间、游玩亮点,还是给不同需求的游客提供了选择的空间,不得不说优秀。
最后一部分是预算控制,从逻辑上讲,饮食每日三餐平均100,3天2晚应该是300?这600块是怎么算出来的?令人欣慰的是,相较于Kimi,文心一言留出了往返交通费用,虽然这100显然不够省外票价。
总预算1583,和我要求的1000元左右,超出约58%。文心一言自己写“略超出”,属实是财大气粗。
智谱清言
智谱清言的反应很快,约20秒我拿到了以下结果。
一目了然,智谱清言给出了一份非常 to C 的场景化的旅游攻略,不仅考虑到了中秋3天假期里,往返交通也需要半天时间,还让我吃上了早餐,行文从饮食和景区的排列也更有“人味儿”。
更值得一提的是,它是唯一一个给我提供了注意事项,让我注意海鲜过敏,同时带好防晒、雨伞和证件的“贴心”大模型。
而预算部分,智谱清言“很会过日子”,安排我住在4个片区中最经济的市中心,去的是不要门票的老虎石海上公园,考虑到中秋的价格波动,总预算超出约20%也在合理范围内。
豆包
豆包让我等了约75秒,足足一分多钟,但看完它的内容我略息怒了。
豆包的攻略是提纲挈领式的,节约了我的注意力。
第一天的行程中,“可以不买票在外面看一眼”也非常戳中贫民社畜。
行文以时间为轴,列出“地点+活动+预算”,虽然第二天没让我吃上午饭,但总体上信息的疏漏较少。
在住宿饮食和预算部分,住宿上豆包的攻略很精准,片区和我本地朋友的推荐语几乎一样。饮食也并不是“近年”炒起来的大热,看了一眼搜索源,来自今日头条转载的“秦皇岛旅游文化发布”,这是一个秦皇岛市旅游和文化广电局官方账号。
预算方面,按中间值计算是1100,最大值是1150。但是,它好像把交通忘了。
打分环节
每个维度5分,以维度为轴,按表现的排名赋分。
整体上,各家大模型的理解力都不错。攻略质量上,智谱清言和豆包表现突出。
智谱清言攻略简单明了,理解力cover,控制预算上,它最“会过日子”,额外还提供了注意事项的关怀,“体贴”力拉满。
豆包行文“丝滑”,在当今这个信息爆炸的时代,节约注意力资源这一点太重要了,攻略格式打法满分,显现出“有零有整”的逻辑性,但在忘了交通预算上丢了大分。
Kimi和智谱清言的生成速度是最快的,当然,他们的内容也相对简单。
总的来说,作为一个懒得做计划的P人,我不那么严格,随心跟着大模型走一遭并不坏。它帮我定好了大致的框架,也留有发挥的余地,由于信息源综合了官方网站和营销网站,踩雷的空间也不大。
如果有人同行,而我是被push制定计划的那位,大模型当然会提高我的效率,替忙着码字搬砖的我,交上一份不那么完美但也算及格的初稿,甚至弥补一些容易疏漏的点。
而从前玩不明白的我,也准备在旅程中,要求 AI 帮我介绍一下这个景点的历史和文化,节约我自行搜索的注意力,让我真正的休假。
我是余杨,致力于发掘 AI 的实用场景,如果你也有观点、想法或想看的测评,欢迎和我交流。如果你喜欢这期内容,别忘了一键三连,因为这是我探索更新的动力,我们下期再见~