从想法到现实,三个人只花500元,做出一个爆火的C端AI应用,可能吗?
6月下旬,一个名叫“文风测试”的网站在全网悄悄走红。截至目前,话题#文风测试#在小红书已有超346万次浏览,抖音、微博、微信视频号以及X(前推特)等平台上也遍布网友晒出的文风测试结果。
受文风测试网站启发,一些开发者相继推出了类似的基于AI模型驱动的互动玩法,如“名家嘴替”文风模拟器、OC成分测试等。
其中,OC成分测试为开发者王登科团队的产品实现了精准导流,通过小成本撬动了大流量。有业内人士预测,很快会有套路化的一波流产品策略。(相关阅读:《花5分钟开发,超40万人使用,现在AI圈流行小而美的“一波流”?》)
文风测试网站的使用很简单,只需将文字内容复制粘贴进去,即可测出这段文风与哪位作家最相似。
网址:testurtext.site
据主创团队透露,自6月5日文风测试网站上线以来,后台数据显示已产生了超200万条运行结果。而这个网站从头到尾投入就只花了500元人民币,团队三人全是女生,其中负责算法和模型的主创Ankie是一名人工智能专业在读的本科生。
文风测试走红后,争议也随之而来。有网友抱怨频繁测出大冰、郭敬明等作家,还有人质疑文风测试只是新瓶装旧酒,实际上并不能测试“文风”,只是披了层文风外衣的“关键词测试”。
“AI新榜”近期和Ankie聊了聊这款爆款应用最初的灵感来源、相关争议、测试原理,以及在大模型调用成本仍然昂贵的当下,她们是如何以小成本做出一个爆火C端AI应用的。
爆火的文风测试是如何诞生的?
AI新榜:文风测试这个点子是怎么来的?
Ankie:我们的灵感来源于一个叫“I write like”的英文网站,它可以测试你的写作风格与哪位作家相似,之前在一些社群里小范围地火了一下,但它只能测英文。
网址:https : //iwl.me/
现在看可能会觉得它的UI界面很高级,但当时这个网站就只有一个输入框,甚至比我们的网站还要简陋一些。
当时我们使用了这个网站,觉得非常不准,于是另一位开发小伙伴提出要不要自己做一个可以测中文的网站,于是就真的做了一个。
AI新榜:文风测试网站测中文的准确率如何?准确率是怎么计算的?
Ankie:中文作家测试很准,输入1500字以上准确率可达92%。
我们创建了一个初步的测试集,目前还在改进。这个测试集包含了一些中文作家未用于模型训练的作品片段,这些片段是随机选取的他们不常写的文体或题材。接着把这些片段上传到网站进行测试,如果测试结果中前三位相似度最高的作家包括了目标作家,即视为测试成功。
AI新榜:在开发之前,有预期会吸引哪类用户群体吗?
Ankie:我们预计会用这个工具的人,大多数会来自同人圈,正式一点说就是年轻的中国网络作家。
上线后我们发现,不止同人女(同人圈中的女性创作者),像文字博主这类本身写东西写得比较多的人群,以及喜欢阅读或写作的人也会使用这类工具。
AI新榜:开发过程中运用了哪些编程语言或AI工具,以及主创各自负责什么?
Ankie:与其他AI应用不同,我们选择自主开发了网站的前端网页和后端代码,而不是依赖现成的模版或框架。这种自主开发的方式导致前期出现了很多技术上的问题,严重的时候系统都进不去。
文风测试主创团队
我们主要用的是Python,由我(即上图中的Ankie1678)负责算法和AI方面的编程。
4201负责开发和部署,最初因为考虑便捷性,也是用了python flask的框架。因为大家之前都没有前端的经验,所以很多功能是通过后端注入html来实现的,但这也导致我们突然访问量提升的时候服务器无法支持。现在经过学习已经改成前后端分别处理,不过这方面能提升的空间还很大。
队友4680是做UI设计的,她原本设计的页面比现在的要更复杂漂亮一些,不过我们目前还在提升我们的开发技术来实现。
整个网站开发用了两个月,周期还是比较长的。这个网站的算法部分和实现一晚上就写好了,代码还算简单,大部分时间都花在了数据准备上和UI调整上。
AI新榜:据说你们自己训练了一个小模型,能否详细介绍下前期数据准备遇到的难点?
Ankie:前期准备训练数据,我们是去寻找一些作家的作品资源,这会花费很多时间,因为很多开放的图书馆都需要付费或限制下载量。
数据一直是AI领域面临的一个大问题。数据一旦好了,算法和解决方案都是有的,但数据并不一定有。
很多人会吐槽为什么测出来像主创,其实是因为训练数据收集是一个很耗时的过程,但我们在开发初期又想快速知道用的算法是否可行,所以最后用了我们自己写的东西去训练模型,以最小的成本去测试想法是否可行。
网友测出来的结果像主创团队中负责开发网页的4201
网站最开始的时候,只能测出来用户写的东西最像我们三个之中的谁。
最早的文风测试网站版本
另一个大家不知道的是,现在的版本里,我们三个的数据相比大作家来说是很少的。写得最多的4680,一共也就才3万字,而大作家动辄就大几十万字。
一般来说,数据量越小,模型识别会更困难,如果模型连我们都可以测出来,那说明它在准确度上还是比较可靠的,所以我们三个也是一种基准。
AI新榜:决定自己训练模型是出于什么考虑,为什么不是用现有模型?
Ankie:说白了就是又便宜又快。
文风测试结果页给出的单句解析需要对原文本进行重新采样。比如说,一段文字它可能需要删掉一些词、或者删掉一些句子作为新的样本,再进系统不断反复调整才能计算每一个句子的重要性。
点击按钮为关键句着色,图中文字以不同颜色标识了出来,即为单句解析
也就是说,用户那边产生一个结果,我们的机器其实猜了几千次。
几千次运算,如果用免费的大模型,运算时间成本很高,用户点击测试以后,5分钟出不来一个结果,使用体验会很差。但用ChatGPT这样的昂贵模型,开销就会很大,我们后来测试看到效果也并不好。
我们所有开销总和大概是500多块钱。小模型在自己电脑上训练好以后放在服务器上直接使用,开销只花在了租服务器上。
最近我和一些AI创业者也聊了很多,他们面对的主要问题就是目前调用大模型的成本太高,做toC应用想要盈利比较困难,C端用户付费意愿相对较低。
许多团队和初创公司在投入大量资金后并没有收到很好的效果,所以大家都在找一种能够实现to C盈利的解决方案。
在我看来,无论选择哪家大模型,要么成本特别高,要么效果不尽人意。而且大模型也不是砸钱就能砸出来的,也有可能砸很多钱进去但出来的效果也不太理想。
文风测试走红背后,加入大冰是一个神来之笔
AI新榜:我们观察到文风测试6月下旬在网上讨论度很高,从后台数据来看,网站流量最大的阶段是什么时候?
Ankie:网站上线是在6月5日晚上,一开始先在QQ空间火了,第二天转发量就达到了1.4万,接着小红书、微博、豆瓣上也出现了相关讨论,6月5日至6月13号期间网站访问流量是最大的。
不过我们前四天没有统计访问量,后来还是王登科指导我们做的统计,截至目前,网站累计产生了约200万个测试结果。
AI新榜:一些用户反馈,同一个人的文字会因为不同的文章体裁(例如散文和议论文)产生不同的结果。可以解释一下文风测试的原理吗?
Ankie:总共分为两步,第一步是教机器阅读,第二步是教机器分类。
教机器阅读的核心是让机器理解文本内容。这通常通过训练模型来实现,原理类似于做填空题:将文本中的某些词挖去,让机器尝试填充,从而学习每个词的含义。在这个过程中,每个词会被转换成一个向量形式(即一串数字),因为机器只能处理数字。通过这种方法,机器能够学会如何阅读和理解文章。
教机器分类本质上是一个文本分类任务,即判断文章的风格与哪位作家相似,前提假设文章就是数据库中的某位作家写的,让机器去找出来。
AI新榜:很多网友吐槽自己测出来是大冰、郭敬明等作家,一定程度上带火了文风测试网站。一开始是怎么想到把他们纳入模型训练的?
Ankie:主要原因是大冰、郭敬明和韩寒在几年前是真的很火,书店一推门进去都是他们的书。他们被嫌弃也不是因为写的不好,可能文字上矫揉造作了一些,但不能否认他们写的东西确实有一定价值。
选作者的时候,是我灵光一闪想到把大冰加进来,因为我觉得他会增加节目效果。很多人其实不是非常熟悉太多严肃文学作家,但他们都认识大冰。
加入大冰反而是一个神来之笔。
AI新榜:关于训练数据的版权问题,是否有明确的标准来判断哪些作家的作品可以收录,哪些作家因为版权问题不能收录?
Ankie:我们一定不会收录网络作家。虽然我们也知道网络作家很受欢迎,如果大家测出来是网络作家因为会更有趣一些,但这点也是我们在网站上线前就已经深思熟虑过的。
现在大多数人对AI的认识基本上就是GPT、文言一心这样的大模型。如果我们说我们要拿写手的作品去训练AI,那他们可能会觉得我们是不是要拿他们的作品去“尸块拼接”,许多网文作家、网络写手是非常介意这点的。
相比之下,由出版社出版的知名作家的作品,不用于商业目的一般都没有问题。
除了版权问题,我们还考虑到,我们网站是可以分析单句的,看起来很像“调色盘”。如果你的作品和网络作家相似,就会有风险被指责抄袭。而我认为使用机器学习来检测抄袭是不合理的。
如果你测出来像莫言,不会有人说你抄袭;但是如果测出来像网络作家,那就有可能被指责抄袭,甚至有些粉丝会专门用这个来“鉴抄”,这是我们绝对不想看到的。
而至于具体加入什么的作家,这其实是非常主观的,最初网站上有的作家,也都是开发者读过、能想到的作家,这也是我们一直在听取用户建议、新增作家的原因。我们并不会根据作家的“写作水平”来判断加不加。我们一直希望尊重每一位作家,我们也无权评判任何一位作家的“写作水平”。
主创回应争议:我们的AI不是“关键词检测”AI新榜:有网友认为文风测试并不能测试“文风”,只是披了文风外衣的“关键词测试”,对此你怎么看?
Ankie:我们在“文风”测试上的确是存在不足的,我们现在也在积极改进,但我们网站绝对不是所谓的“关键词检测”网站。
有人会觉得我们所用的技术并不是AI,认为这个网站只是根据关键词来判断文章像哪个作者。例如写了某个词就被认定为某位作者,但这个词在文章中只出现了一次,谁知道它就是那个关键词呢?如果真能做到这样的话,那我们的AI技术反倒是太智能了。
但是我们网站确实没有真正测试“文风”,这个负面评价我们一致认同。
虽然我们的网站叫做文风测试,但实际上测试更多关注的是写作内容和词汇使用,对于句子结构、上下文结构等文风问题,其实测试并不能给出一个很好的答案。
在网站上线之前,我们就已经考虑过目前面对的所有质疑和问题,可以说现在展示的这个文风测试网站,就已经是我们当下对这些问题的解决方案。
AI新榜:是完全没有解决的办法吗?还是可操作性低?
Ankie:是有解决办法的,但是操作难度太大。如果有语言学大佬坐镇,手动标注数据的话,我们的模型也许能够进行句子结构分析,但是很可惜我们并没有语言学相关的专业背景。
哪怕真的有大佬帮助我们,我们训练模型总共用到了五十多万条数据,如果都需要手动标注的话,这个工作量实在是太大了。
其实我们一开始的网页标题是“文字测试”,但是上线后几乎所有人都说我们的网站叫做“文风测试”,而我们优化SEO(注:搜索引擎排名)的时候,必须让网页标题与网站传播的内容相匹配,不然大家搜索“文风测试”,根本就搜不到我们的网站,还有可能会被一些垃圾网站影响,所以后来才进行了“改名”。
对于质疑,我们一直是持积极态度的,有问题我们完全承认,能修改的地方我们都第一时间就做出了更正。而“文风”这个问题,我们确实还需要更仔细的研究。最近我们也在查阅计算语言学的文献,争取尽快为这个质疑给出一个答案!
AI新榜:你提到过,测试结果提供的单句解释是想要对可解释性AI如何能够增强用户信任和理解进行研究,你现在对此的结论是什么?
Ankie:我论文的数据分析结果显示,单句解释可以增强用户信任,但无法增强用户的理解能力。增强用户信任这一点很明显,问卷结果也显示很多人之所以相信文风测试的结果,很大程度上是因为单句解释的存在。
我甚至觉得一些用户对我们的AI有点过于信任了,我看到有网友测出来自己写得像大冰或者郭敬明,就觉得被打击到了,甚至不想再写作了。
我觉得大家没有必要这么相信这个结果,毕竟算法不是100%准确,在评判上也有缺陷,当个娱乐就好!
AI新榜:不能增强用户理解是指什么方面?
Ankie:我们想要了解的是用户的理解程度,即他们能否理解为什么他们的文章与某个作者相似、哪些地方相似等。但很多用户无法完全理解我们标记出的句子和百分比的意义,甚至会受到误导。
比如有网友觉得我们的网站跟Turnitin(注:知名论文查重系统)是一样的,就是通过查看句子的相似度最终累计得出整篇文章与哪位作者最相似的结论。但实际上我们跟Turnitin使用的方法是完全不一样的,Turnitin是通过计算每个句子之间的相似度来得出总相似度,而我们是先进行分类给出整篇文章像某个作者的概率,然后再由解释器来依据结果计算每个句子对结果的影响。
Turnitin查重页面
Turnitin需要查看每句话的相似度并将其相加以得出最终结果,而我们是从全文的角度来判断的,并不是通过简单的相加得出的结果。
我们提供的单句解释是指每句话如何影响“像某位作家”这个结论,跟查重的方法可以说是完全相反的。
文风测试网站单句解释
我在论文里指出单句解释无法增强用户理解的主要原因在于,非专业人士对AI的认识有限,这样过于“机器学习”的呈现方式还是比较抽象。这也是我们正在改进的方向之一。
AI新榜:从逻辑上来讲,我们对事物的理解可能是我只有了解它才能信任它。但是对于AI,我们实际上并不了解它,但是却接受它的结果。
Ankie:是的。我感觉我们收到的用户反馈存在两个极端,有些人认为机器计算的结果一定是正确的,而另一些人则认为AI完全不可靠。我觉得主要原因还是人们对AI了解有限,毕竟这项技术还是很新。
AI to C创业热潮中的冷思考:盈利和成本的困境AI新榜:你们是否考虑过用文风测试来创业或实现商业化?
Ankie:可以明确地说,没有。
因为其实我们一开始就是因为好玩才想做这个网站的,对于我来说可能一开始就是想完成论文,对于4201(注:另一位主创)来说,她更多的是想练练手,而设计师就完全是出于兴趣了。我们目前都想继续学业,而且我们也认为创业之前至少应该在行业里积攒一些工作经验,所以目前不考虑创业的一个原因是创业并不符合我们当前的职业规划。
还有一个比较重要的,也是很现实的问题,就是我们目前看不到AI应用到C端的盈利空间。创业除了有一个好的想法之外,还需要考虑如何赚钱。
AI新榜:是很难变现吗?
Ankie:是的。如果你只是免费提供服务,可能会有一段高峰期每天都有几十万甚至上百万的用户,但是一旦开始收费,一天可能十个用户都没有。
AI to C应用现在真的很难找到赚钱的方式。有很多AI创业者和我聊起这个网站,问的最多的问题就是,“你们成本是怎么做到那么低的?”
AI应用的变现真的是一个很大的问题,前期投入完全就是在烧钱,但是后期盈利很难。比方说王登科做的哄哄模拟器,当时一夜爆火,登科一睁眼账单欠费几千美刀,后期也没能完全变现回本。
哄哄模拟器
因为很现实的一个问题在于,很多AI to C的应用对用户而言不存在必需性。如果你做了一个很实用的软件,大家都在用,那考虑盈利是完全可以的。但是现在人们对AI的态度就是可有可无的,可能除了ChatGPT之外,大家也不觉得什么东西是非用不可的,甚至ChatGPT的必需性都没有那么强。
连OpenAI和百度都在亏损,可想而知初创者的处境了。
AI新榜:从我们的角度来看,AI创业就像一片蓝海,大家都想进入。但从初创者亲身经历的角度来看,情况感觉完全不同?
Ankie:最主要是因为现阶段AI的成本实在太高了。
AI现在的发展趋势实际上就是砸钱。比方说沙特阿拉伯,在AI的学术研究方面几年内就迅速“赶英超美”,其实就是砸钱砸的多。GPT等大模型更是证明了,只要砸钱砸得够多、训练得够多,效果就会很好。这个领域没有足够的资金是很难发展的。
所以对于初创公司来说,资金就是最主要的问题。从技术角度来看,即使你有好的想法和更好的解决方案,如果没有资金支持,也可能很难实现。
像我们运营这个网站,做一些实验性的东西是没什么负担的,但是一旦要考虑创业,考虑赚钱的话,压力就会特别大。
AI新榜:虽然变现很难,但感觉还是有很多人在做这个事情?
Ankie:我认为现在这个行业还是太早期了,大家还没有探索出盈利的模式,大多都是用AI应用作为帮主业务辅助、引流的手段。除此之外,现在AI技术变革太快,新技术的出现就意味着更高的成本,也就是说很有可能我们花费大量成本开发出一种新技术,很快又出现更先进的新技术“暴打”我们的技术,让努力和成本都打水漂了。比如ChatGPT的出现就完全颠覆了自然语言处理这个领域。
不管是从技术层面也好,还是从成本方面去考虑,变化都太大了,我们很难去控制方向。
AI新榜:听上去好像“围城”一样。
Ankie:是的,其实AI的学术研究也是一样的,谁都想往AI靠,但说实话AI真正厉害的技术就那么些,大家都在换个研究场景改一改这些技术,或是把几个技术拼在一起来发表论文。
在做这个应用的时候,我也时常有一种割裂感。AI研究者更偏向于不计成本地做到更好,会说:你们为什么不做得更好?为什么不用大模型做?缺钱为什么不去拉赞助?但是AI创业者就觉得,天哪,你们这成本也太低了,流量热度又很不错,怎么做到的。
一种非常直观的割裂感,很有意思,但确实也是现实面临的情况。
热潮之后,回归日常AI新榜:文风测试火了之后对你们的生活有什么影响吗?
Ankie:开心啊!我的论文拿了很高的分数,4201说要练手也被狠狠地拉练了。我们特别满意,看到大家喜欢我们网站真的特别开心。但实际生活上来说,还真没有什么太大的影响。
我第一周的时候特别开心,开心得都有点不对劲了,每天什么都不干,一睁眼就点开手机开始看评论、帖子。后来忙起来就好多了,不过也有可能是当时开始被骂了,本能地有点逃避看这个事情。
不过我现在对于这些骂声不太在意了,我们心态都挺好的,也可能是我们觉得这个项目就是昙花一现,因为它真的很不常规,甚至整个火起来的链路都很不常规。
实际上文风测试能火也不是因为技术有多牛,可能因为这个想法很有意思,或者是页面做的很漂亮,又或者是可解释性AI的部分做得好,我也没有一个确定的答案,就是天时地利人和吧。
所以你问我为什么不考虑创业,还有一个问题就是我觉得可能我们这辈子都不会再做出来一个像这样的东西了。
AI新榜:说“昙花一现”的话会不会有点悲观?
Ankie:主要是我们的目标和人生规划都不在此。
我们都觉得,火了很好,那不火其实也无所谓了。我们自己做着玩的东西,大家能够喜欢就已经让我们特别开心了。
AI新榜:接下来还有其他计划吗?网站会继续迭代吗?
Ankie:肯定会的!我们一直在听取反馈来加入更多的作者,也在对已有的作者数据校对。目前计划在这个暑假期间做一些学术性的更新,特别是关于数据集方面的内容,以及改善AI可解释性的部分。后续的话我们计划有一个大版本更新,但是还不能保证可以做出来。
AI新榜:计划的大版本更新是什么?可以小小的透露一下吗?
Ankie:这方面的更新大家可以小小期待一下,我们先不透露了,算是给大家一个惊喜吧!