GitHub：爬虫集合：微博、Twitter、玩加、知网、虎牙、斗鱼、B 站、WeGame、猫眼、豆瓣、安居客、居理新房等

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1623 天前的主题，其中的信息可能已经有所发展或是发生改变。

hello，小伙伴们大家好，今天给大家推荐的开源项目是：CxSpider，这个开源整合了作者自己的采集过的所有产品，包括微博、Twitter 、玩加、知网、虎牙、斗鱼、B 站、WeGame 、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看，应该可以给你提供一个可借鉴的思路。

Project

爬虫详情

1. Twitter 用户信息爬虫(twitter.user_info)

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08

使用第三方模块 twitter-scraper 采集 Twitter 用户信息；因为该模块采集的粉丝数和关注数可能存在偏差，因此再通过 Selenium 抓取 Twitter 用户信息，以更正该模块采集的数量。

采集信息：粉丝数和关注数为 twitter-scraper 采集并配合 Selenium 爬虫检查，其他字段为 twitter-scraper 采集。
应用配置：无需使用代理 IP，需要使用 Selenium

2. Twitter 用户推文爬虫(twitter.user_tweet)

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08

微博热搜榜实时爬虫(weibo.hot_ranking)

@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08

定时采集微博热搜榜。

采集信息：每 5 分钟采集 1 次，每次约 50 条记录→每天约 14400 条记录
数据清洗：热搜榜置顶热搜（固定第 1 条）和广告热搜（标注推荐）
应用配置：无需使用代理 IP 、无需使用 Selenium

环境变量

爬虫功能的正常使用需要配置如下环境变量，可以直接修改 environment.py 中的环境变量值，也可以修改配置 Json 文件。

环境配置

Python/Pip 环境

Python >= 3.8.0
requests >= 2.23.0
- idna >= 2.9
- urllib3 >= 1.25.9
- certifi >= 2020.4.5.1
- chardet >= 3.0.4
bs4 >= 0.0.1
- beautifulsoup4 >= 4.9.0
- soupsieve >= 2.0
apscheduler >= 3.6.3
- pytz >= 2019.3
- six >= 1.14.0
- tzlocal >= 2.1
- setuptools
mysql-connector >= 2.2.9
lxml >= 4.5.0
selenium >= 3.141.0 (用于 Selenium 爬虫)
- urllib3 >= 1.25.9
twitter-scraper >= 0.4.1 (用于 Twitter 用户信息爬虫)
- requests-html >= 0.10.0
- MachanicalSoup >= 0.12.0

开源地址： https://github.com/ChangxingJiang/CxSpider

今天的推荐不知道大家喜欢吗？如果你们喜欢话，请在文章底部留言或点赞，以表示对我的支持，你们的留言，点赞，转发关注是我持续更新的动力哦！

关注公众号回复："1024"，免费领取一大波学习资源，先到先得哦！

Selenium

采集

Twitter

2020.06.08

1 条回复 • 2020-07-31 19:01:47 +08:00

iwukong

2020-07-31 19:01:47 +08:00

怎么爬金融 PDF 数据