全球主机交流论坛

标题: txt怎么去重最高效 [打印本页]

作者: speedtest    时间: 2023-10-14 08:25
提示: 作者被禁止或删除 内容自动屏蔽
作者: adminisd    时间: 2023-10-14 08:38
时间换空间,空间换时间。什么软件来了照样慢,加内存就完事了。
作者: cscool    时间: 2023-10-14 09:12
一台不行就分布式呗,把txt切一下,分到几台机器用脚本跑
作者: 920    时间: 2023-10-14 09:27
内容去除? GPT用代码因该好处理
作者: 大宝剑    时间: 2023-10-14 09:32
试试飞梭 先切割一下  飞梭除了去重也有切割工具
作者: sRGB    时间: 2023-10-14 09:33
我使用 C/C++ 写过一个工具,是把文件全读取,然后排序去除重复的。
你文件太大了,先切割成你内存 的 2/3大小,然后单个文件一次性载入试试
作者: joshua    时间: 2023-10-14 09:42
我之前2t的数据,按照每行数据的首位分割成256个文件,去重非常快
作者: CapitalTeemo    时间: 2023-10-14 11:52
。几个T的txt
作者: teardrops    时间: 2023-10-14 11:53
以前试过python写的. 10亿的数据才几百G.. 你这信封牛
作者: 6056687    时间: 2023-10-14 14:51
租个大杜甫
作者: 秋秋0827    时间: 2023-10-14 15:48
先切割为若干小文件,然后再逐一处理
作者: kapai    时间: 2023-10-14 16:49
用工具导入数据库就行了 记得设置成主键就行了
迟早要进库的
作者: 秋刀鱼    时间: 2023-10-14 17:59
用 EmEditor
作者: 1121744186    时间: 2023-10-14 18:55
一个txt 里面 重复标准是什么? 同一个字算重复吗
作者: hins    时间: 2023-10-14 19:51
几个T,光读取就得几个小时了吧
作者: yrj    时间: 2023-10-14 19:55
裤子吗,紫薯布丁




欢迎光临 全球主机交流论坛 (https://443502.xyz/) Powered by Discuz! X3.4