Hi,大家好,我是珍妮,今天和大家分享的是:
怎样用AI清洗素人文数据库
(这次我们清洗的是运营前端的素人文数据库。)
上一次分享中:我们清洗的是【销售端和交付端的内部培训数据库】。
关于【销售端和交付端的内部培训数据库】是适用于所有赛道的友友来看的。
但如果是【运营前端的数据库】就没那么好清洗了。
往往是:
一个细分赛道,有一个细分赛道的提示词。
需要运营人员先手动搓一轮,
再来设计提示词,
最后再让AI来帮忙清洗。
今天珍妮清洗的是:
某留学网站上,所有检索【PHD】后,出来的数据库。
我会给大家做一个【数据清洗示范】。
下方是数据库的节选部分,完整的数据库比这大很多很多。





这类数据库,咱们找身边的程序员帮忙开发小程序,去把数据扒下来即可。
真正难的地方在于:
1)知道去哪里扒数据。
2)知道怎么搜索“关键词”才能扒到合适的数据。
3)知道怎样清洗数据,并检测出数据的正确程度。
而这1-3条,就依赖于我们对这个赛道的调研。
比如博士留学这种红海赛道,珍妮是从25年10月底开始调研,一直到25年12月左右,初期调研才算结束,
才弄清楚了:
1)哪些网站/平台的数据可靠。
2)怎样找销售端&交付端提问,才能获取到【对获客有益】的数据。
3)怎样处理这些数据,并借此写成文案。
4)怎样配图,并且借助AI的力量去做素人文图片。
现在我们来看看:
要怎么清洗“这套数据吧”。
拿到这套数据库后,我们要结合“曾经对这个赛道”的调研,去思考“我现在需要筛选”什么样的数据,写到稿子里。
比如在博士留学赛道,
我需要筛选以下信息:
1)关于某个学校的情况。
2)关于某个学校某个项目的情况。
3)关于某个学生申博时的面试经验。(行话又叫做“面经”)
4)关于学生自身背景的情况。
这时候,我们先自己看一眼这个数据库,看看要怎么去设计提示词。


一眼看过去,红圈内容就包括了:
1)学校规模
2)学生背景
3)学生人数
4)课程设计
5)考试安排
等等。
那么这时候,我们可以先写出第一版本的提示词:


现在珍妮来拆解【写这个提示词】背后的思路。

现在我们来拆解,如下图:
红圈的“比如XX,XX,XX”三个学校,是为了做举例。之所以用这三个学校做举例,是因为我投喂给AI的完整数据库里,珍妮一眼看过去看到了这三个学校。所以我就拿这三个学校做举例。

再比如下图:绿圈我之所以要这么写,是因为“我希望我能获得各个学校有关的数据,比如UCLA这所学校的规模&专业&学生背景&面试经验啥的”。当我能获取到这个学校相关的数据,我就能吸引到【想要去这个学校读博的人】。所以我才会把“学校名字”作为【让AI帮我分类的第一步】。

再比如下方蓝圈,
学生背景、学生人数这个词,
是根据我们一开始看到的素材库里面的内容来定的。
申请时的小细节,是我自己单独补充的。
因为真正关于某个学校的情况,它的小细节实在是太多了,
所以这里,我用【申请时的小细节】这个词快速代替,
以免我要敲非常非常多的提示词。

再比如下方黑圈,之所以要强调【逐字逐句的分析】这句话,
是因为AI有时候会跳着【把一些数据自动忽略掉】,所以我们要补充这句话。
而且,之所以说【同一个学校的数据都汇总到同一个学校的名字下面】
是因为:我后面要根据同一个学校、来自动检索那整篇的数据。

再比如下方红圈,
我是让AI以【先观点、后论据】的形式展现出来,
并且让AI【标记下方黄圈的要求】。
而且我还在蓝圈处做了举例。

这样做的好处是:
当我们的运营人员,想要搜集某个学校情况的时候,他可以一眼看到观点,然后他还能够看到下方的论据,
并且能够找到这个论据的原始出处。
这就代表:如果AI自己瞎编数据,
那么运营人员可以直接打开对应出处的网址,然后找到:AI是否有乱写。
任何一个在公司带过一线运营团队的老板,基本都能够明白:
有时候你给你的团队下达了某些指令,但是他们还是会以各种各样的形式犯错。
与其等到他们犯错,你一开始就要把一个东西说清楚,
说清楚之后,你还要举例,举例到让所有人都能够明白、确保别人真的是按照你的格式来、不会犯错。
所以这也是为什么:珍妮一定要写下方蓝圈部分的提示词,因为我担心AI会犯错。

接下来珍妮说了下方红圈的话,红圈的话我是一个试探性的话语,是为了试探AI能不能够理解我的意思,
因为如果我们不发红圈处的话,那么AI很可能会长篇大论开始说一大圈有的没的。

这一部初版的提示词就写完了。
提示词接下来要怎么改进,就要看AI怎么给我们跑结果。
这版提示词,这里一共改了3个版本。
我们来看看:
1版-2版-3版有何区别:



1版相较于2版,增加了下方红圈的内容:

举个例子:

之所以要加上方红圈这个内容,是因为我发现AI会偷懒,他会只找那三所学校相关的信息,然后其他学校的信息他就不总结了。
再比如:

之所以要加上方红圈的内容,是因为我发现:AI有的时候会把信息做成表格形式的排版。
如果表格形式的排版,那么我们放到数据库之后,就不容易复制粘贴了。
但这些文档都是我们后期洗稿要用的素材,所以只能做成word形式。
再看下方变化:

比如下图红圈:

之所以要加这句话,是因为我发现:AI他到后面会用【同上】这个词来偷懒,
如果他用了【同上】这个词,
假如我们对AI处理好的数据进行二次处理的话,
那么我们就很难再找到:一开始这个数据来源是什么?
所以无论发生什么情况,数据来源都要标注清晰,不能用同上这个词。

再比如下图:

之所以加红圈这个词是因为:【如果不加的话,AI会马上开始自由发挥,他甚至会开始开始乱检索数据,比如说开始检索哈佛商学院的数据】。
2版提示词相较于3版,增加了下方红圈的内容:

之所以我们要加上方红圈的提示词,
是因为:整个材料库是非常庞大的:不仅仅有关于学校phd项目的细节,还有面试经验或者美国签证的细节,
那么我们都要要求AI记录下来。
而且我们要提示AI:要求他要有逢水架桥,逢山开路的精神。
让他不要遇到一点困难就放弃,
因为如果你仔细去看AI处理后的一些东西,他真的有时候会直接放弃去做资料整理。
以上是一个提示词的完整设计。
接下来,珍妮会分享【为了搭一个好的素材库,我会找程序员大佬扒哪些内容】。
一个好的素材库,一定要能够展示:素材库的发布时间,原始出处,标题,文案,评论内容。
展示发布时间,是为了看这个素材到底有多古早。
展示原始出处,是为了避免:有一天,出现AI幻觉之后,我们找不到原始素材究竟是在哪扒下来的。
展示标题和文案,是为了便于我们检索。
展示评论内容,是为了便于我们看到:究竟是【什么样的内容能够引起观众的评论】以及【观众在评论区说什么】。
我所有的素材库,都有以上信息。
接着,我就会把“金客厅群博士留学赛道以来的所有调研”&"AI清洗过的数据库”“销售端和交付端所有往期整理的资料”,都投喂给IMA知识库。
有群友不了解IMA知识库,这是ima知识库下载链接哦:
https://ima.qq.com/download/?rmWeb=1&webFrom=10000029&channel=10000029

每个细分文件夹里,又有更多细分文件,都是内部获客素材库。

运营人员每当想要确定自己的数据来源是否准确的时候,就可以在ima里检索,并且找到原始素材是在哪个文档里。
与此同时,我们还搭建了内部的飞书知识库。
完整版请加珍妮微信zhenni989




