全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 1578|回复: 6
打印 上一主题 下一主题

球给个思路

[复制链接]
跳转到指定楼层
1#
发表于 2014-4-20 08:42:07 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
从HTML中提取网页中的文章内容,但是网站很多,都是不同的,我不可能一个一个网页的写好提取模式再来提取吧?
请问该怎么取到内容?
2#
发表于 2014-4-20 09:58:26 | 只看该作者
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~
3#
 楼主| 发表于 2014-4-20 10:18:01 | 只看该作者
暮雨秋晨 发表于 2014-4-20 09:58
切成数组,去除HTML标签,判断数组元素中字符量最大的一个,输出~~~

我试试
4#
发表于 2014-4-20 10:18:22 来自手机 | 只看该作者
百度有一个转码阅读,你看看。
5#
发表于 2014-4-20 10:20:05 | 只看该作者
正文提取算法
参考这个http://443502.xyz/thread-240767-1-1.html
6#
 楼主| 发表于 2014-4-20 10:24:26 | 只看该作者
欧阳逍遥 发表于 2014-4-20 10:18
百度有一个转码阅读,你看看。

好方法!谢谢。想到了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-22 00:51 , Processed in 0.062193 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表