谁该成为大模型成长的“养料”?

在科技进步的历史征程里,我们享受技术成果之前,似乎总要付出一些“隐形”成本。

谁该成为大模型成长的“养料”?

有关“AI将要取代人工”的言论甚嚣尘上,且不再局限于科技幻想,而是真实地走进了现实世界。

先是萝卜快跑落地,导致大批网约车司机不满,随后,番茄小说上线“AI作者”一日同更三本书让网文作者如临大敌。

接着,与番茄小说同属于字节跳动的“豆包”被爆出正全网搜索小说素材,以便“喂养”番茄的AI作者。更有意思的是,这出风波波及到了在线文档领域。据悉,有网友在社交平台表示,称豆包的搜罗范围不仅在网文界,手还伸向了在线文档内作者尚未发布的内容。

其中,WPS首当其冲。

WPS官方为此不得不紧急辟谣。但除了WPS,几乎所有在线文档APP都遭受了一番审查,包括石墨、腾讯文档、印象笔记、墨客、橙瓜……最终很多人发现,当AI风口来袭,网络世界哪里都不安全。

这也不算空穴来风。去年,WPS就被爆出在用户协议里增添了AI训练条例,尽管这两年官方一直在据理力争地辟谣,但很多用户还是不肯给予信任,“罗生门”大戏就此上演。

用户在担心自己辛苦创作的内容,成了他人的嫁衣,而AI背后的资本则一心想当“普罗米修斯”,为大模型到处搜集“火种”。

在线文档,集体奔向AI

这些年,在线文档面临了太多压力:诸如研发停滞、用户流失、同行内卷、广告营收疲软…

在线文档遇到创新乏力已是不争的事实,WPS作为行业代表,也难逃这一困境。在入局AI之前,WPS最高调的一次革新还在2018年,当年,腾讯文档横空出世,让WPS一时倍感焦灼,在前者上线三个月后,后者宣布升级。

尤其增加了多人协作功能,WPS还一度把这部分单独拿了出来。但时至今日,云协同早已遍地皆是,飞书、钉钉、企微这类企业APP、石墨这类在线文档玩家,甚至各种云办公文档小程序都能做到。

值得一提的是,前几年外部环境造就了一波线上办公热,也间接火了一大批在线文档APP,其中,印象笔记、石墨文档这类小众玩家人气激增。数据显示,2020年线上办公爆发初期,印象笔记的C端用户使用量翻了四五倍,石墨文档的新增用户量和企业注册数增长了约6倍。

同年,腾讯文档宣布月活突破1.6亿后,内卷开始成为行业生态,整个行业也开始陷入了漫长的瓶颈期。

直到大模型的爆发,情况开始有所转变。

2023年财报显示,WPS Office国内个人办公服务订阅营收到达了26.5亿,同比增长近30%,月活设备数高达5.98亿。

在线文档发力AI已经成为不可避免的一个趋势。艾媒咨询数据显示,随着大语言模型和AIGC的规模化落地应用,AIGC+协同办公场景将有效带动行业增长,2023年协同办公市场规模预计达330.1亿元

AI成了在线文档们稳固市场地位,留住用户的重要手段。而WPS入局AI的心情则更为急切。毕竟在ChatGPT的火爆出圈后,在线办公市场算是最方便落地的场景之一,隔壁微软在OpenAI的GPT-4刚发布之时,就结合大语言模型LLM上线了Microsoft 365。

一直以来,WPS Office都与微软Office针锋相对。公开资料显示,微软Office和WPS Office在国内市场Windows平台的平均市场覆盖率分别为81.5%和68.7%。微软Office在PC端领先一步,后者在移动端则更有优势。

不可否认,微软对AI的布局强烈刺激了WPS,可需要注意的是,开始关注AI的绝不止WPS一家。从国内企业来看,百度有智能办公平台如流,钉钉更是背靠通义千问,印象笔记发布“印象AI”,飞书发布“My AI”……

巨头们想利用AI更上一层楼,那些资金不足以入局AI的小众玩家,也开始在曲线救国,选择与大厂合作,这也是本次“豆包盗文”引发在线文档圈集体沦陷的由来。

总而言之,在线文档正热情奔向AI,不管谁先胜出,要承担“喂养”任务的用户都成了最无辜的人,当他们轮流奔走在不同的平台上,试图绕开这一步时,竟悲哀的发现,自己似乎早已无路可逃。

大模型训练背后的“原罪”

据悉,百度的文心一言已服务8.5万家企业客户,阿里的通义千问已服务了9万家企业客户,截至2024年5月15日,字节的豆包总下载量超过1亿,双端月活破2600万……

当大模型炙手可热,AI训练自然被外界所关注。公开资料显示,大模型训练步骤一般分为五步:数据收集和处理、模型设计与测试、模型训练、评估和优化以及模型部署与维护。

这其中,第一步至关重要。也正是这一步,造就了如豆包、WPS AI此类的诸多争议。

大模型训练与进化的基础是数据,但在AI发展进程中,数据来源是否合规成了这个赛道未来有无持续性的前提,否则,版权、隐私等疑云便会纷至沓来。在AI触怒网文作者之前,画手圈就已经有了先例。

去年年底,小红书AI绘画模型Trik被国内几位画师联手起诉,理由是Trik未经授权使用了画师的原创作品作为训练数据,生成了与原作高度相似的图片,侵犯了创作者的合法权益。360创始人周鸿祎也因涉及“AI盗图”被全网群嘲。

海外也是一样,有报道显示,有1.6万名英国艺术家联名,对OpenAI和其他人工智能公司发起集体诉讼;甚至就连NYT也向法院起诉OpenAI和微软侵犯版权。

在科技进步的历史征程里,我们享受技术成果之前,似乎总要付出一些“隐形”成本。但这个成本应该由谁来承担则值得探讨。

事实上,大模型训练之所以将触手伸向普通群体,归根到底还是因为企业发展大模型的成本居高不下,投入实用后又迟迟无法达到可观的收益。当前OpenAI、Midjourney、文心一言、讯飞星火大模型虽然均已开启付费模式,然而,大模型企业想要进入盈利阶段仍然还有一段距离要走。

以头部的OpenAI为例,调查显示,虽然其在今年前两个季度的收入不错,年度经常收入增长到了34亿美元,但由于构建和运行模型的成本高昂,亏损状态始终没能改善;ChatGPT会员付费收入达到50%以上,但偏向企业和开发者端的API收入占比仅为15%左右。

国内这边,Kimi目前的获客成本还在12元以上、WPS AI总结一个万字文档、输出千字摘要,仍旧需要2.64元……可行业内的价格战却突然开始了。此前,GPT-4o mini正式上线,每100万Token的输入/输出分别是15美分/60美分。

在这样的背景下,大模型界呈现精彩的“众生相”:被侵权的用户义愤填膺、成本与营收不对称的企业骑虎难下,而资本则开始生出退场的心思。来觅PEVC数据显示,2024年一季度,人工智能领域合计发生融资案例198起,同比减少20.80%。

在过往的历史经验里,当技术进步与伦理道德产生冲突,科技发展总会被视为某一方面的“原罪”,但应该背负原罪真的是科技吗?

创新与制约同存

关于AI能否取代人类,这个问题最早诞生于科幻片年代,随着大模型掀起全球科技狂潮,在戏剧化之外,似乎也增添了几分可能性。萝卜快跑惹起一众司机抗议、网文作者联名上书抵制番茄,都成了现代科技文明史上的一次开端。

7月6日,2024世界人工智能大会在上海落下帷幕,金融、教育、医疗成为重点应用落地方向。实际上,在ChatGPT 发布的时候,海外就有人专门统计过“哪些工作更有可能被 AI 替代”。

一位博主在Upwork(全球最大的自由职业平台)统计了从ChatGPT 发布前一个月到 2024 年 2 月 14 日的一些自由职业工作数据。调查发现,受ChatGPT 的影响,Upwork 上波及最大的几个圈子是写作、翻译、客服服务。其中,翻译沦为被AI取代的重灾区,工作数量下降了19%,时薪也下降了20%。

但在这些支持人工智能抢人类“饭碗”的数据表象背后,却也存在着相反的趋势:从宏观角度来看,不少工作因为ChatGPT 的出现反而更多了。

统计显示,尤其是可以用大模型为基础的创作型工作,吃到了AI的第一波“红利”。在Upwork 上,ChatGPT 发布之后,视频编辑/制作工作数量增加了 39%,平面设计工作增加了 8%,网页设计工作增加了 10%。软件开发工作也有所增加,后端开发工作增加了 6%,前端/网页开发工作增加了 4%。

科技的双面性就此凸显,AI并不是人人喊打,起码在保障用户基本利益的前提下,落地到具体生活里的好处远远大于弊端。国内也是如此。例如在2023年,阅文的起点国际出海的网文作品里,有20%是AI来翻译的。

当然,AI应用导致的争议性问题从来没有消失。

在网文作者与画手质疑版权外,学术界的大模型论文热也在击穿该领域的落地意义。以“中华医学杂志”为例,从去年七月,该刊发现AI生成的论文数据每月都在上升,一度超过了50%。

目前,《中华医学杂志》已发布AIGC技术使用的有关规定,轻者退稿或撤稿;情节严重者,将列入作者学术失信名单。

从这些案例中,我们不难看出,已经有行业意识到AI应用要基于一些必要的规则下施行。之所以我们面对各类在线文档AI化而草木皆兵,本质是因为当前的AI规范还没到位。

为此,官方出台的相关政策也越来越多,国内有《生成式人工智能服务管理暂行办法》、国际方面,欧洲议会在今年3月份通过了《人工智能法案》等等……而如何保证在不扼杀创新的同时,又合理的培养大模型、使用大模型,正成为整个行业的新节点。

种种迹象显示,大模型的出现,是人类科技文明丰碑上不可磨灭的一个符号,同时,也是一份沉重的责任,需要更多人去主动承担。

至于谁该成为大模型成长的“养料”,肯定不能只让普通用户成为唯一的代价。

道总有理,曾用名歪道道,互联网与科技圈新媒体。同名微信公众号:道总有理(daotmt)。本文为原创文章,谢绝未保留作者相关信息的任何形式的转载。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年8月1日
下一篇 2024年8月1日

相关推荐

  • 融创被强制执行2.7亿

    天眼查法律诉讼信息显示,7月10日,融创房地产集团有限公司及旗下桂林融创城投资有限公司新增1条被执行人信息,执行标的2.73亿余元,执行法院为广西壮族自治区桂林市中级人民法院。 风险信息显示,融创房地产集团有限公司现存580条被执行人信息,被执行总金额超292亿元。此外,该公司还存在多条限制消费令、失信被执行人(老赖)和终本案件信息。 天眼查信息:https…

    2024年7月11日
  • 如祺出行关联公司增资至3.7亿美元

    天眼查App显示,近日,如祺出行关联公司广州宸祺出行科技有限公司发生工商变更,公司注册资本由3亿美元增至3.7亿美元。 该公司成立于2019年6月,法定代表人为高锐,经营范围含网络技术服务、软件开发、信息系统集成服务、信息技术咨询服务、计算机系统服务、数据处理和存储支持服务等。股东信息显示,该公司由宸祺(香港)科技有限公司全资持股。 天眼查信息:https:…

    2024年8月19日
  • 率先全面开放,文心一言为何一骑绝尘?

    率先全面开放,文心一言为何一骑绝尘?

    摘要: 大模型在国内正掀起新一代技术浪潮。

    连续两天,半夜爆出大消息。先是华为新机深夜上线,让芯片国产替代的步伐更进一步;次日晚,百度文心一言官宣向公众全面开放——两大劲爆消息直接点燃科技圈。

    8月31日凌晨,百度官方公众账号即发布推文,称“文心一言向全社会开放”,用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”体验。包括百度文心一言在内,一共有8个企业/机构的大模型位列第一批名单,可以正式上线面向公众提供服务,值得注意的是,被看作文心一言竞争者的阿里通义千问、360智脑、讯飞星火等,不在首批获批名单中。

    随后“文心一言APP”在各大应用商店冲上热榜,在苹果App Store上更是直接登顶免费榜榜首,成为当日热门应用,这无疑让百度再一次占得了先机。

    此前,在获得备案审批之前,各家只能小范围内测,用户需要“排队”申请内测资格,由此大大限制了大模型在用户层面的推广,如今大模型备案获批和全面开放,大模型的步伐有望迈入下一阶段。

    秉持着技术自主的理念,将资金大规模倾斜到自主技术研发的百度和华为,可以说是殊途同归,而软硬件领域的“双子星”联袂,共同推动技术投入走向“开花结果”。

    技术坚守,换来厚积薄发

    大模型在国内掀起新一代技术浪潮,迅速席卷了整个互联网,而百度在大模型赛道上的步伐一直领先。2019年第一个发布了文心大模型,2023年,大厂中最早推出大语言模型“文心一言”,如今又率先获批、得到认可,正式向全社会开放。

    百度之所以快速踩在了大模型的全球性技术风口上,是建立在百度雄厚的技术基底之上。

    早从2010年开始,百度就已经着手布局AI相关技术的研发,近十年来,累计研发投入超过 1400 亿元。其中2022 年研发费用高达 214.16 亿元,占百度核心收入比例达到 22.4%。与全球其他大厂相比,这些投入也是数一数二。

    在高研发成本的持续投入下,这些年从最初探索深度学习等基础技术,到推动AI在互联网等场景试点落地,再到如今扎根千行百业、大力推进AI工业化大生产等,百度既完成了在芯片、框架、模型和应用四层构架对应的自研技术积累,具备了做AI基础设施供给者的前提条件,又成功引领了AI技术成果在产业层面的实践,降低了人工智能的开发和应用门槛。

    2222222222222222

    这也使得百度无论在技术专利、技术产品还是技术应用上,都占据了领先地位。以专利来看,根据由国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《中国人工智能专利技术分析报告(2022)》显示,百度AI专利申请量1.68万件,连续五年保持中国第一;专利授权量上,百度仍以5705件专利授权量位列第一。

    文心一言大模型,正是百度多年技术积累和产业实践的水到渠成,而基于技术和实践的领先优势,文心一言问世不到半年,在国内外多家调研机构、权威媒体和高校等发布的大模型评测报告中,表现优异。

    33333333333333

    如IDC最新发布的《AI大模型技术能力评估报告,2023》,报告显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一。其中算法模型是大模型能力最为核心的要素,百度文心大模型在这一维度获得了唯一的满分。

    更令外界欣喜的是,从测评来看,百度文心一言大模型能力从5月至今不断提升,正在逐渐赶上国外大模型。

    百度「AI大底座」的全栈能力,助力文心一言进化

    31日凌晨全面开放后,百度文心一言APP迅速飙升至苹果商店免费榜榜首,成为首个登顶应用商店榜首的中文AI原生应用。

    用户的反响,透露出他们对文心一言表现出的强劲进化能力的期待。自今年3月发布至今,文心一言快速成长,熟练掌握的创作体裁超过200个,内容丰富度是发布初期的1.6倍,思维链长度是初期的2.1倍,知识点覆盖达到初期的8.3倍。在一些公开测评中,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表现。

    444444444444444

    这很大程度上得益于百度飞桨,百度拥有自研的深度学习平台飞桨,它有力支撑了大模型的高效训练和推理。通过飞桨端到端自适应混合并行训练技术以及压缩、推理、服务部署的协同优化,文心大模型训练速度达到原来的3倍,推理速度达到原来的30多倍。

    飞桨和文心一言,一个是框架平台,一个是大模型,这两者之间正好处在人工智能技术体系里面很重要的两层,它们之间有很强的协同优化潜力,由此飞桨领先的训练技术,能够优化大模型的训练效率。

    百度不单单在框架层和模型层拥有关键技术。进入人工智能时代,IT技术的技术栈发生了根本性变化,从过去三层转变为“芯片-框架-模型-应用”四层,百度则是全球为数不多、进行全栈布局的人工智能公司。从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,及搜索、智能云、自动驾驶、小度等应用,各层都有领先业界的关键自研技术。

    5555555555555

    如框架层上,百度从2016年就开源了飞桨深度学习框架,目前这一框架已经集成了深度学习核心训练和推理框架、基础模型库、端到端开发套件等工具组件,在中国市场份额中排行第一。

    全栈布局的优势在于,可以在技术栈的四层架构中,实现端到端优化,大幅提升效率,飞桨和文心一言的优化,就是最典型的例子。另外,芯片、框架、大模型和终端应用场景,也可以形成一个高效的反馈闭环,帮助大模型不断去调优迭代,越做越好。

    比如文心一言与搜索、信息流等应用层的协同。百度的搜索服务,每天响应几十亿次真实的用户使用需求,每天进行1万亿次深度语义推理与匹配,能够提供最真实、最及时的反馈,从而倒逼大模型、深度学习框架和芯片的优化。相对地,文心一言应用于搜索,也将带来搜索的变革。

    除了全栈自研的「AI 大底座」,百度智能云推出的两大AI工程平台—「AI 中台」和「百度百舸· AI 异构计算平台」,也分别在开发和资源层面进行提效,加速训练过程。这给文心一言的成长提供了最坚实的技术支撑,也成为其追赶国外大模型的底气。

    核心能力升级,百度加速大模型落地时代到来

    5月底举行的2023万象·百度移动生态大会上,百度搜索宣布“AI伙伴”开始内测。这款全能的“Al伙伴”能够听懂用户的任何问题,并用语音进行互动,还能帮助用户标记答案中的重点,提供权威的来源。在演示中,“Al伙伴”完整地提供了一篇人工智能大会主持词。

    百度旗下各类用户侧产品正在利用大模型进行重构,而基于大模型基座和云平台进行开发生态的建设也在同步推进。前不久,百度承办的2023 WAVE SUMMIT上,推出了“超级助理”和“Comate X智能编程助手”。

    理解、生成、逻辑和记忆,构成了一个人工智能或者通用人工智能系统最基本的能力,从文心一言在C端及B端应用上的表现来看,这四大核心能力正在快速提升,而背后展示出的则是百度在知识增强、检索增强、对话增强方面的关键技术能力和差异化优势。

    庞大的知识图谱和搜索基础上对真实数据和用户需求的理解,是百度多年来构建技术护城河和打造内容生态的基础,因而作为百度自主研制的知识增强大语言模型,文心一言在知识增强和检索增强方面天然具有优势。

    据悉,百度文心大模型拥有世界上最大规模知识图谱,包含50亿实体、5500 亿级事实,每天调用量超过400亿次。

    在对话增强方面,百度深耕对话技术多年,前不久,王海峰带领团队完成的「知识与深度学习融合的通用对话技术及应用」成果,荣获了「2022 年度吴文俊人工智能科技进步奖特等奖」,这是该奖项设立以来颁发的首个特等奖。对话技术所涉及的记忆机制、上下文理解和对话规划能力,能够帮助文心一言实现更好的对话连贯性、合理性和逻辑性。

    百度已经构建了面向中文、服务应用、富含知识的多样化训练数据,并建立起人类反馈、奖励模型和策略优化之间的飞轮机制,随着真实用户的反馈越来越多,文心一言的效果会越来越好,能力也越来越强。

    而今,文心一言率先面向用户全面开放,也就说未来能获得更海量的真实世界中的人工反馈,这将进一步改进基础模型,助力文心一言加速迭代、提升能力。而且,对用户层面的放开,会刺激大模型竞争焦点转向应用层,激起应用开发的创造活力,基于文心一言的领先,百度未来或将率先带来杀手级应用,真正引领大模型进入落地时代。

    这亦是用户想从这场技术性浪潮看到的,弯道超车,占领新一代技术变革的制高点。

    道总有理,曾用名歪道道,互联网与科技圈新媒体。同名微信公众号:道总有理(daotmt)。本文为原创文章,谢绝未保留作者相关信息的任何形式的转载。

    2023年9月1日
  • 上半年亏损近25亿,门店减少1万家,贝壳的未来该如何分析?

    上半年亏损近25亿,门店减少1万家,贝壳的未来该如何分析?

    2022年8月28日
  • 董宇辉商标曾遭多方抢注

    #多家新公司名字碰瓷与辉同行##董宇辉离职# 据媒体报道,东方甄选在港交所公告称,主播董宇辉已经离职,并于7月25日生效,随后董宇辉、俞敏洪发文回应此事。 天眼查知识产权信息显示,“董宇辉”已被多方申请注册为商标,申请人除与辉同行(北京)科技有限公司外,还包括深圳某机电公司、上海某实业公司、吉林某科技公司及多位自然人,商标国际分类涉及食品、餐饮住宿、广告销售…

    2024年7月26日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信