V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
sirthisman
V2EX  ›  JavaScript

求求各位大佬,爬虫小白遇到的一个 js 生成 cookie 的难题

  •  
  •   sirthisman · 2020-07-10 15:32:31 +08:00 · 2628 次点击
    这是一个创建于 1606 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 python 爬取疫情通报网站 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml 时遇到的一个问题。 第一次请求网站时返回状态码 412,同时返回了一个 js 文件后再次请求网站后请求成功。如图 avatar 我猜是第一次返回的请求头 set-cookie 字段和这个 js 文件 http://www.nhc.gov.cn/efzZI1ZIHCHw/lRzGTrFtfOv6.ca73791.js (再加上一个 html 的 js 混淆后的脚本,查看网页源代码能看到)生成了完整的 cookie,就可以成功请求网站了。 本人不懂前端和 js 技术,请问如何在 python 中实现这个生成 cookie 的功能呢?(或者能在 python 中执行这个脚本生成 cookie 的方法) 谢谢各位!

    5 条回复    2020-07-13 19:31:42 +08:00
    luoleng
        1
    luoleng  
       2020-07-10 15:47:45 +08:00
    找到生成 cookie 的 js 代码,python 可以直接调用 js,比如 execjs ;
    sirthisman
        2
    sirthisman  
    OP
       2020-07-10 15:50:35 +08:00
    @luoleng 谢谢。那经过加密的 js 也可以执行吗?
    Loooom
        3
    Loooom  
       2020-07-10 16:07:31 +08:00
    这不是瑞数嘛
    sirthisman
        4
    sirthisman  
    OP
       2020-07-10 16:21:09 +08:00
    @Loooom 我是小白不太懂,能给解释一下吗
    baxtergu
        5
    baxtergu  
       2020-07-13 19:31:42 +08:00
    这个网站加密比较厉害,建议用模拟浏览器的方式去爬
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5538 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 03:41 · PVG 11:41 · LAX 19:41 · JFK 22:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.