V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
CaptainD
V2EX  ›  问与答

反爬求助

  •  
  •   CaptainD · 2021-12-28 15:16:10 +08:00 · 2334 次点击
    这是一个创建于 1070 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在学习爬虫,在网站反爬的时候遇到些问题

    • 爬虫在请求目标网站的时候会返回 202 ,但是浏览器是能请求成功的,我检查发现

    • 目标网站是 post 请求,表单提交,没有使用 ajax ,表单提交的时候有两个奇怪的字段 1.__RequestVerifyToken: 看起来是一个加密的随机数,在首次请求的时候会带这个参数,参数在 response 的 html 页面存在,是一个隐藏类型的标签,name = __RequestVerifyToken ,value=它的值 2.刷新几次之后,表单只携带一个 payload ,键是 OMv5e9ZM ,值看起来也是个加密的数据,但是这个值变化的时候 cookie 里有一个键值对也会发生变化,应该是有关联的,暂时不清楚是干啥的

    • 我的程序携带对应的 cookie ,payload 发起请求一直会是 202 ,不太明白问题出在哪

    25 条回复    2021-12-28 20:33:29 +08:00
    CaptainD
        1
    CaptainD  
    OP
       2021-12-28 15:19:47 +08:00
    页面居然乱码了。。。

    网站还有个特点,正常浏览器请求有时也会出现 202 ,大概每 4 ,5 次出现一次
    hidemyself
        2
    hidemyself  
       2021-12-28 15:24:13 +08:00
    爬的网站此时应该贴出来吧
    CaptainD
        3
    CaptainD  
    OP
       2021-12-28 15:26:34 +08:00
    @hidemyself 是国知局的专利数据
    http://epub.cnipa.gov.cn/Dxb/IndexPDQuery
    大概内容就是最新两周,每周发布的专利申请数据
    murmur
        4
    murmur  
       2021-12-28 15:27:32 +08:00
    别学习爬虫了,是带薪学习把,灰产就老实出钱找人
    CaptainD
        5
    CaptainD  
    OP
       2021-12-28 15:29:28 +08:00
    @murmur 倒也不是,我本身不是爬虫工程师,但是平时喜欢研究些开源的数据,中外都有,总想着以后能靠这东西赚钱
    czfy
        6
    czfy  
       2021-12-28 15:42:23 +08:00
    敢爬 .gov 的数据?
    lysS
        7
    lysS  
       2021-12-28 15:56:49 +08:00
    这个域名~,哈人
    ch2
        8
    ch2  
       2021-12-28 16:00:26 +08:00   ❤️ 3
    版权所有:国家知识产权局(未经许可不得复制)
    牢饭香
    deplivesb
        9
    deplivesb  
       2021-12-28 16:04:07 +08:00
    主办单位:国家知识产权局 软件维护:知识产权出版社  ICP 备案编号:京 ICP05069085 号
    版权所有:国家知识产权局(未经许可不得复制) 技术支持:010-62086466 / 6421 / 6415

    牢饭警告
    CaptainD
        10
    CaptainD  
    OP
       2021-12-28 16:05:49 +08:00
    @czfy 有什么说法吗
    CaptainD
        11
    CaptainD  
    OP
       2021-12-28 16:07:28 +08:00
    @deplivesb 不是特别了解这块,专利数据我看大部分是开源的,我的理解开源数据一般不是默认可以爬虫吗,我的经验是看国外开源的数据一般提供了爬虫接口,非常方便,国内的没怎么了解
    czfy
        12
    czfy  
       2021-12-28 16:11:34 +08:00   ❤️ 2
    1. 爬虫本来就在灰色地带
    2. 为什么网站 /App 要反爬?因为别人不想让你爬
    3. 别人不想,你还要做,这叫强迫
    4. 强迫别人做不想做的事情是违法的
    5. 商业公司,是否追究爬虫者的法律责任,主要考虑投入产出比
    6. gov 是否追究爬虫者的法律责任,考虑啥我也不知道,可能看心情吧,不过一抓一个准
    czfy
        13
    czfy  
       2021-12-28 16:12:51 +08:00
    @CaptainD 有接口那就不是爬虫了,那叫以对方同意的方式(通过 API )获取对方愿意提供的数据
    deplivesb
        14
    deplivesb  
       2021-12-28 16:17:04 +08:00   ❤️ 1
    @CaptainD 专利数据是公开的,但是不代表你可以用爬虫批量获取。而且还是 gov 网站,玩意爬虫频率太快,把网站搞炸了,那就是不是单纯爬虫这么简单了,小心被反手一个非法侵入计算机信息系统罪。
    CaptainD
        15
    CaptainD  
    OP
       2021-12-28 16:22:40 +08:00
    @czfy 感谢科普,之前确实没想这么多,我平时研究数据发现国外的大多提供给你这么几种方式,其中一种就是 linked data ,允许运行程序获取数据,就是我说的接口,可能表述不准确
    czfy
        16
    czfy  
       2021-12-28 16:30:40 +08:00   ❤️ 1
    国家知识产权局提供什么数据,在这里( http://ggfw.cnipa.gov.cn:8010/PatentCMS_Center/)
    目前有一些城市 gov 会提供数据接口调用( https://data.sh.gov.cn/)

    一方面,国内 gov 数据公开确实做得一般
    另一方面,你提到 “总想着以后能靠这东西赚钱”,这里的法律和道德风险有多少就不好说了
    ZAXON
        17
    ZAXON  
       2021-12-28 16:35:17 +08:00
    这个网站的爬虫属于比较难的那种吧,楼主实在学 JS 逆向吗🧐
    CaptainD
        18
    CaptainD  
    OP
       2021-12-28 16:43:49 +08:00
    @czfy 这个网站我之前就看过,网站非常卡顿,bug 也比较多,但是提供了开源数据下载,下载流程比较复杂,需要注册还要上传身份证号,我按部就班的注册了,也上传了证件信息,结果不通过,理由是不清楚,但是我拍的照片就是很正常的那种,也不知道为啥,我还给他们发了邮件,询问能否提供开源地址,能否通过程序访问,如果不行能否加速一下认证过程,但是他们回复比较模棱两可,只说我提交的材料不合格

    另外赚钱这事我想的比较简单,大学的时候我玩过 kaggle ,当然比较菜,大部分时间就看看数据,看看他们分析一件事找了什么特征,有什么因素能影响事件结果之类的,我说的赚钱是指能不能自己搭建一下系统,然后分析点感兴趣的数据培养一下这方面能力,并不是单纯的卖数据
    czfy
        19
    czfy  
       2021-12-28 16:47:12 +08:00
    @CaptainD 嗯,这就是我说的 “国内 gov 数据公开做得一般”,要不就是完全不公开,要不就不是真心实意想公开,只是给了个口子,实际上还是拿不到

    如果你说的是指培养能力,想用国内的数据炼丹,可能可以看看国内仿 kaggle 的网站,上面有一些国内数据
    liubaicai
        20
    liubaicai  
       2021-12-28 18:07:14 +08:00
    很刑
    evil0harry
        21
    evil0harry  
       2021-12-28 18:20:35 +08:00
    我曾经在地方专利局爬过,你的这个网站太卡了。
    http://pss-system.cnipa.gov.cn/sipopublicsearch/portal/uiIndex.shtml
    evil0harry
        22
    evil0harry  
       2021-12-28 18:21:53 +08:00
    @evil0harry 建议使用地方的
    evil0harry
        23
    evil0harry  
       2021-12-28 18:23:07 +08:00
    evil0harry
        24
    evil0harry  
       2021-12-28 18:25:13 +08:00
    @evil0harry 当时是为了科研任务,并且是 3 年前没有网络安全法的时候。
    mswh
        25
    mswh  
       2021-12-28 20:33:29 +08:00
    puppeteer 试试?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3709 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:28 · PVG 12:28 · LAX 20:28 · JFK 23:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.