全球主机交流论坛

标题: 有做tg聊天记录采集并投喂给大模型的开源项目不? [打印本页]

作者: xchiminer    时间: 2024-12-24 17:41
标题: 有做tg聊天记录采集并投喂给大模型的开源项目不?
主要痛点是:

1.不想群聊,9成废话,但不到0.1成的信息又超级有用。减少走弯路。
总结:有用信息的获取成本高昂,与时间正相关。特别一天1w+讨论的群组。

2.采集信息,投喂给比如LLAMA3,训练他给出日报,周报,月报。合并同类项,权重,时间推移,关联度等。
总结:这样可以列表,将主题做缩进查看。权重来置顶相关话题。过滤垃圾主题。比如N26开户,通过时间过滤,可以查看到最新政策和坑点。

3.标记大神,让ai来判断人品。
总结:平时因为一个网友发了一个很有用的信息,但对此人没有太多背调,所以贸然接触可能会上当受骗。让ai自动对他的发言进行采集,从对话进行性格推断,增加可信度辨识率。

大体是这样,当然后面还想有一些完善的,不知道有没有轮子,没有就先记录记录了。
作者: callmefeifei    时间: 2024-12-24 17:49
某研究所已经做了
作者: rrw    时间: 2024-12-24 17:54
。。。 是不是把ai 想的 过于ai 了
作者: xchiminer    时间: 2024-12-24 17:54
callmefeifei 发表于 2024-12-24 17:49
某研究所已经做了

求明示,只想做用户,并不想自己搞轮子。
作者: callmefeifei    时间: 2024-12-24 17:57
xchiminer 发表于 2024-12-24 17:54
求明示,只想做用户,并不想自己搞轮子。

1、制作识别模型(收集数据集、标注、训练出模型)
2、收集TG数据
3、用模型来识别TG数据,给人打标注,用一套算法来计算这些标注的权重,然后出分析报告。
作者: xchiminer    时间: 2024-12-24 18:00
rrw 发表于 2024-12-24 17:54
。。。 是不是把ai 想的 过于ai 了

这些都是数据分析,还没上到行为模拟,ai已经很ai了,比如谷歌早4月份就出了浏览器拟人化。
我说的这些已经是相当简单的text应用了。
作者: xchiminer    时间: 2024-12-24 18:03
callmefeifei 发表于 2024-12-24 17:57
1、制作识别模型(收集数据集、标注、训练出模型)
2、收集TG数据
3、用模型来识别TG数据,给人打标注, ...

想找个现成的,而且又能快速出结果的,最近在看Llama-3-Groq-70B-Tool-Use
作者: eastcukt    时间: 2024-12-24 19:54
不错,我找找有没有类似的,没有我就写一个
作者: HOH    时间: 2024-12-24 20:15
早就做好了,收集群聊数据,打标识别一个人的身份,然后下发请来喝茶
作者: hyf3513    时间: 2024-12-24 20:29
关键词监控我做过
作者: davidgg    时间: 2025-1-15 15:03
这个痛点我也有哦,所以,现在有解决方案了吗?
我也想用

作者: gssasd    时间: 2025-1-15 15:43
我有一个上课群。




欢迎光临 全球主机交流论坛 (https://443502.xyz/) Powered by Discuz! X3.4