全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 1572|回复: 14
打印 上一主题 下一主题

求助:php如何采集淘宝搜索内容

[复制链接]
跳转到指定楼层
1#
发表于 2020-3-16 10:47:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
用的国外加洲5刀一年的VPS, 上面建一个采集站,无法采集淘宝,怎么解决呢?


采集地址:

https://s.taobao.com/search?q=连衣裙


<?php

$geturl = "https://s.taobao.com/search?q=连衣裙";

    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $geturl);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");//3.请求方式
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);//https 不验证信息
    curl_setopt($ch, CURLOPT_REFERER, 'www.taobao.com');        //设置 referer   来自哪个网站
    curl_setopt ($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'); //用户访问代理 User-Agent  
    curl_setopt($ch, CURLOPT_TIMEOUT, 20);                        //超时时间
    $html1 = curl_exec($ch);
    curl_close($ch);

        echo  $html1;

?>

执行后采集不到内容,其它网站正常

各位大神有什么解决方法么?
2#
发表于 2020-3-16 10:49:04 | 只看该作者
有那么简单吗,大公司防爬虫的手段多的是。
3#
 楼主| 发表于 2020-3-16 10:49:16 | 只看该作者
论坛版规严,现重新发出!

有大牛懂的,给帮助一下,  在此先谢了!
4#
 楼主| 发表于 2020-3-16 10:51:32 | 只看该作者
米奥 发表于 2020-3-16 10:49
有那么简单吗,大公司防爬虫的手段多的是。

大公司

爬虫好复杂

我是用PHP简单能实现就好,以前淘宝网页可以直接这么采的
5#
发表于 2020-3-16 10:51:48 | 只看该作者
劝楼主放弃吧。淘宝的反爬很严格,真的去爬,很少有人会用php。我不是打击楼主积极性,看楼主连php curl都调试不明白,后续遇到的问题会更无从下手
6#
 楼主| 发表于 2020-3-16 10:54:48 | 只看该作者
yrj 发表于 2020-3-16 10:51
劝楼主放弃吧。淘宝的反爬很严格,真的去爬,很少有人会用php。我不是打击楼主积极性,看楼主连php curl都 ...

谢谢,  

这段代码只是  复制过来的。   

以前是可以curl 到内容的

现在难道真不能这样简单采了?
7#
发表于 2020-3-16 10:55:41 | 只看该作者
放弃吧, 淘宝搞千人千面,爬了有啥用
8#
发表于 2020-3-16 11:01:44 | 只看该作者
既然爬,好歹用python爬吧 就算不成功 也显得咱是专业的
9#
发表于 2020-3-16 11:02:58 | 只看该作者
以前淘宝火车头也可以随便采集 现在要登陆才能采集  时间一长就要出验证码
10#
 楼主| 发表于 2020-3-16 11:04:44 | 只看该作者
::: 发表于 2020-3-16 11:01
既然爬,好歹用python爬吧 就算不成功 也显得咱是专业的

  python爬   专业,   

不会,看来得学习
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-9-12 11:31 , Processed in 0.080718 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表