全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 3096|回复: 23
打印 上一主题 下一主题

准备建立千万级数据量的垃圾站。。。

[复制链接]
跳转到指定楼层
1#
发表于 2011-9-20 23:20:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
没开玩笑   条件成熟的话可能上亿
2#
发表于 2011-9-20 23:21:28 | 只看该作者
  期待垃圾帝出现~~~
3#
发表于 2011-9-20 23:21:59 | 只看该作者
跪拜
4#
发表于 2011-9-20 23:22:27 | 只看该作者
原帖由 老中医 于 2011-9-20 23:21 发表
跪拜


求技术

请问楼主 使用啥程序?全静态么?
5#
发表于 2011-9-20 23:22:43 | 只看该作者
等着被K。所有付出功亏一篑
6#
 楼主| 发表于 2011-9-20 23:24:09 | 只看该作者
前段时间已经用PHP实现了所有程序,不过不是很完善。。几天的时间塞进几十万的数据。
大概流程:用主关键词取得所有长尾词,用长尾词取得所有搜索结果,用正文提取算法从URL取出正文,入库。
准备用Python重写,PHP还是写写网页比较合适。。
7#
发表于 2011-9-20 23:24:36 | 只看该作者
数据太多.累死蜘蛛咋办
8#
 楼主| 发表于 2011-9-20 23:24:44 | 只看该作者
原帖由 有容乃大 于 2011-9-20 23:22 发表


求技术

请问楼主 使用啥程序?全静态么?

自己写的程序和CMS脱离,想用啥CMS都成。
9#
发表于 2011-9-20 23:25:32 | 只看该作者
Python

没技术 插不上嘴。。
10#
发表于 2011-9-20 23:25:33 | 只看该作者
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-10-2 13:49 , Processed in 0.220348 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表