Hi,大家好,我是珍妮,今天和大家分享的是:

怎样用AI清洗素人文数据库

(这次我们清洗的是运营前端的素人文数据库。)

上一次分享中:我们清洗的是【销售端和交付端的内部培训数据库】。

关于【销售端和交付端的内部培训数据库】是适用于所有赛道的友友来看的。

但如果是【运营前端的数据库】就没那么好清洗了。

往往是:

一个细分赛道,有一个细分赛道的提示词。

需要运营人员先手动搓一轮,

再来设计提示词,

最后再让AI来帮忙清洗。

今天珍妮清洗的是:

某留学网站上,所有检索【PHD】后,出来的数据库。

我会给大家做一个【数据清洗示范】。

下方是数据库的节选部分,完整的数据库比这大很多很多。

这类数据库,咱们找身边的程序员帮忙开发小程序,去把数据扒下来即可。

真正难的地方在于:

1)知道去哪里扒数据。

2)知道怎么搜索“关键词”才能扒到合适的数据。

3)知道怎样清洗数据,并检测出数据的正确程度。

而这1-3条,就依赖于我们对这个赛道的调研。

比如博士留学这种红海赛道,珍妮是从25年10月底开始调研,一直到25年12月左右,初期调研才算结束,

才弄清楚了:

1)哪些网站/平台的数据可靠。

2)怎样找销售端&交付端提问,才能获取到【对获客有益】的数据。

3)怎样处理这些数据,并借此写成文案。

4)怎样配图,并且借助AI的力量去做素人文图片。

现在我们来看看:

要怎么清洗“这套数据吧”。

拿到这套数据库后,我们要结合“曾经对这个赛道”的调研,去思考“我现在需要筛选”什么样的数据,写到稿子里。

比如在博士留学赛道,

我需要筛选以下信息:

1)关于某个学校的情况。

2)关于某个学校某个项目的情况。

3)关于某个学生申博时的面试经验。(行话又叫做“面经”)

4)关于学生自身背景的情况。

这时候,我们先自己看一眼这个数据库,看看要怎么去设计提示词。

一眼看过去,红圈内容就包括了:

1)学校规模

2)学生背景

3)学生人数

4)课程设计

5)考试安排

等等。

那么这时候,我们可以先写出第一版本的提示词:

现在珍妮来拆解【写这个提示词】背后的思路。

现在我们来拆解,如下图:

红圈的“比如XX,XX,XX”三个学校,是为了做举例。之所以用这三个学校做举例,是因为我投喂给AI的完整数据库里,珍妮一眼看过去看到了这三个学校。所以我就拿这三个学校做举例。

再比如下图:绿圈我之所以要这么写,是因为“我希望我能获得各个学校有关的数据,比如UCLA这所学校的规模&专业&学生背景&面试经验啥的”。当我能获取到这个学校相关的数据,我就能吸引到【想要去这个学校读博的人】。所以我才会把“学校名字”作为【让AI帮我分类的第一步】。

再比如下方蓝圈,

学生背景、学生人数这个词,

是根据我们一开始看到的素材库里面的内容来定的。

申请时的小细节,是我自己单独补充的。

因为真正关于某个学校的情况,它的小细节实在是太多了,

所以这里,我用【申请时的小细节】这个词快速代替,

以免我要敲非常非常多的提示词。

再比如下方黑圈,之所以要强调【逐字逐句的分析】这句话,

是因为AI有时候会跳着【把一些数据自动忽略掉】,所以我们要补充这句话。

而且,之所以说【同一个学校的数据都汇总到同一个学校的名字下面】

是因为:我后面要根据同一个学校、来自动检索那整篇的数据。

再比如下方红圈,

我是让AI以【先观点、后论据】的形式展现出来,

并且让AI【标记下方黄圈的要求】。

而且我还在蓝圈处做了举例。

这样做的好处是:

当我们的运营人员,想要搜集某个学校情况的时候,他可以一眼看到观点,然后他还能够看到下方的论据,

并且能够找到这个论据的原始出处。

这就代表:如果AI自己瞎编数据,

那么运营人员可以直接打开对应出处的网址,然后找到:AI是否有乱写。

任何一个在公司带过一线运营团队的老板,基本都能够明白:

有时候你给你的团队下达了某些指令,但是他们还是会以各种各样的形式犯错。

与其等到他们犯错,你一开始就要把一个东西说清楚,

说清楚之后,你还要举例,举例到让所有人都能够明白、确保别人真的是按照你的格式来、不会犯错。

所以这也是为什么:珍妮一定要写下方蓝圈部分的提示词,因为我担心AI会犯错。

接下来珍妮说了下方红圈的话,红圈的话我是一个试探性的话语,是为了试探AI能不能够理解我的意思,

因为如果我们不发红圈处的话,那么AI很可能会长篇大论开始说一大圈有的没的。

这一部初版的提示词就写完了。

提示词接下来要怎么改进,就要看AI怎么给我们跑结果。

这版提示词,这里一共改了3个版本。

我们来看看:

1版-2版-3版有何区别:

1版相较于2版,增加了下方红圈的内容:

举个例子:

之所以要加上方红圈这个内容,是因为我发现AI会偷懒,他会只找那三所学校相关的信息,然后其他学校的信息他就不总结了。

再比如:

之所以要加上方红圈的内容,是因为我发现:AI有的时候会把信息做成表格形式的排版。

如果表格形式的排版,那么我们放到数据库之后,就不容易复制粘贴了。

但这些文档都是我们后期洗稿要用的素材,所以只能做成word形式。

再看下方变化:

比如下图红圈:

之所以要加这句话,是因为我发现:AI他到后面会用【同上】这个词来偷懒,

如果他用了【同上】这个词,

假如我们对AI处理好的数据进行二次处理的话,

那么我们就很难再找到:一开始这个数据来源是什么?

所以无论发生什么情况,数据来源都要标注清晰,不能用同上这个词。

再比如下图:

之所以加红圈这个词是因为:【如果不加的话,AI会马上开始自由发挥,他甚至会开始开始乱检索数据,比如说开始检索哈佛商学院的数据】。

2版提示词相较于3版,增加了下方红圈的内容:

之所以我们要加上方红圈的提示词,

是因为:整个材料库是非常庞大的:不仅仅有关于学校phd项目的细节,还有面试经验或者美国签证的细节,

那么我们都要要求AI记录下来。

而且我们要提示AI:要求他要有逢水架桥,逢山开路的精神。

让他不要遇到一点困难就放弃,

因为如果你仔细去看AI处理后的一些东西,他真的有时候会直接放弃去做资料整理。

以上是一个提示词的完整设计。

接下来,珍妮会分享【为了搭一个好的素材库,我会找程序员大佬扒哪些内容】。

一个好的素材库,一定要能够展示:素材库的发布时间,原始出处,标题,文案,评论内容。

展示发布时间,是为了看这个素材到底有多古早。

展示原始出处,是为了避免:有一天,出现AI幻觉之后,我们找不到原始素材究竟是在哪扒下来的。

展示标题和文案,是为了便于我们检索。

展示评论内容,是为了便于我们看到:究竟是【什么样的内容能够引起观众的评论】以及【观众在评论区说什么】。

我所有的素材库,都有以上信息。

接着,我就会把“金客厅群博士留学赛道以来的所有调研”&"AI清洗过的数据库”“销售端和交付端所有往期整理的资料”,都投喂给IMA知识库。

有群友不了解IMA知识库,这是ima知识库下载链接哦:

https://ima.qq.com/download/?rmWeb=1&webFrom=10000029&channel=10000029

每个细分文件夹里,又有更多细分文件,都是内部获客素材库。

运营人员每当想要确定自己的数据来源是否准确的时候,就可以在ima里检索,并且找到原始素材是在哪个文档里。

与此同时,我们还搭建了内部的飞书知识库。

完整版请加珍妮微信zhenni989