V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
glouhao
V2EX  ›  Python

scrapy 这个爬虫框架 有什么快速上手的方法么 适合 Python 新手么

  •  
  •   glouhao · 2017-08-03 20:12:13 +08:00 · 4257 次点击
    这是一个创建于 2686 天前的主题,其中的信息可能已经有所发展或是发生改变。

    装了个这个框架,WIN10 上花了我 1 个多小时真麻烦,晚上在研究。 我有个疑问,如果抓取些比较简单的东西,会不会是脱裤子放屁了? 再一个,phython 语法还么看完,php 也是搞下逻辑处理,调用,是不是很难上手?

    17 条回复    2017-08-05 10:31:32 +08:00
    cdwyd
        1
    cdwyd  
       2017-08-03 20:41:06 +08:00 via Android
    requests 能满足大多数个人需求
    mmixxia
        2
    mmixxia  
       2017-08-03 20:56:47 +08:00
    既然用 php,那就用 php 自带 curl 就好啦
    Hstar
        3
    Hstar  
       2017-08-03 21:05:40 +08:00   ❤️ 1
    赞同楼上意见, 用 requests 就好了. 如果你不知道一个东西有什么用, 那么说明你不需要它.
    wellsc
        4
    wellsc  
       2017-08-03 21:07:56 +08:00
    这框架就是给新手用的
    glouhao
        5
    glouhao  
    OP
       2017-08-03 21:17:26 +08:00
    你们众说纷纭 我只是不知道哪个框架更好入手
    lxml
        6
    lxml  
       2017-08-03 21:26:47 +08:00
    scapy 是速度快,然后会自动处理容错等一系列特性,如果你只抓取很少很少信息的话,建议你去浏览器上用开发者工具获取到 curl。

    然后 去这个网站,直接把 curl 输入进去 https://curl.trillworks.com/#python,可以自动替你生成 Python 代码,把 cookie url header 什么都弄好了,你稍微再改改,加加循环什么的大概就能用了。

    当然,如果你对 PHP 更熟悉的话,往下看,有选项也可以生成 PHP 的代码。
    Ehco1996
        7
    Ehco1996  
       2017-08-03 22:51:41 +08:00 via iPhone
    我在知乎写了一个爬虫入门专栏
    有那么三四篇文章是是说 scrapy 的基础用法的

    有兴趣的话可以看看

    http://zhuanlan.zhihu.com/Ehco-python
    inflationaaron
        8
    inflationaaron  
       2017-08-04 01:59:17 +08:00
    scrapy 用了不少 Python 的高级特性,如果不了解的话很容易踩坑。先熟悉 requests 吧
    OldPanda
        9
    OldPanda  
       2017-08-04 06:02:10 +08:00
    chengxiao
        10
    chengxiao  
       2017-08-04 07:08:20 +08:00
    我之前也跟楼主状态差不多,scrapy 上手还是比较快的,只抓简单的网站就是熟悉下 xpath/css 选择器这些东西和 pipeline 处理流程 还有就是数据库的存写 就能抓很多网站了
    slideclick
        11
    slideclick  
       2017-08-04 07:31:33 +08:00
    @lxml
    860670496
        12
    860670496  
       2017-08-04 08:52:17 +08:00
    @wellsc #4 不能更同意
    scrapy 比自己从头造轮子方便多了,就是要理解几个概念和他的工作流程,剩下的基本就是写 xpath 和改参数,好些 class 你自己 override 一下后写别的爬虫也能复用
    真要出现了新手解决不了的问题,也有各种 middleware 给你折腾,比如换头换代理什么的
    xylsmmmmmmmm3
        13
    xylsmmmmmmmm3  
       2017-08-04 09:34:26 +08:00
    如果自己不太用,就偶尔用一次建议自己造轮子。如果大于三次使用爬虫,建议好好学习下框架。看着官方文档走把。
    superlead
        14
    superlead  
       2017-08-04 17:28:52 +08:00
    简单的 没必要用这框架了
    Miy4mori
        15
    Miy4mori  
       2017-08-05 00:54:10 +08:00 via iPhone
    这框架适合新手,有编程基础一会儿就能抓网站了。
    hcnhcn012
        16
    hcnhcn012  
       2017-08-05 10:29:40 +08:00 via iPhone
    看官方文档啊,讲的蛮详细的,基础(spider,selector,item,itemloader & processor,pipeline,settings,request & response)搞清楚就可以写简单的爬虫啦,更客制化一些就去看他的 api 和各种中间件
    hcnhcn012
        17
    hcnhcn012  
       2017-08-05 10:31:32 +08:00 via iPhone
    如果对 python 还不够熟悉,那就 php 吧,要大致上理解 scrapy 还是要扎实 python 基础的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3036 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 11:55 · PVG 19:55 · LAX 03:55 · JFK 06:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.