爬取数据时，是不是只能每个网站每个网站的分析，有没有通用的方式？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2682 天前的主题，其中的信息可能已经有所发展或是发生改变。

各位爬虫大大们，在爬取数据时，是一个网站一个网站的分析来爬取的，还是说有一种通用的方式来进行？抓取数据的入口和抓取到的数据是如何保持通用性呢？

网站

数据

通用

通用性

16 条回复 • 2017-08-10 18:37:30 +08:00

onlyice

2017-08-02 07:09:19 +08:00 via Android

没有通用的方式，一个一个来

数据通用性的话，先多观察你要爬的网站的数据结构，再根据这个定出你的数据库结构。遇到新网站不兼容时，积极重构代码和数据库

jingniao

2017-08-02 07:13:12 +08:00 via Android

如果想要格式化的数据，没什么好的方法。
非格式化的数据那就是搜索引擎的那样的了。

dong3580

2017-08-02 08:57:02 +08:00

@jingniao
你有没有发现，google 的格式化视图结果居然能够针对各个网站格式化数据，而且做的很好。

agentwx

2017-08-02 09:07:27 +08:00

@dong3580 google 的格式化视图是什么？ google 下没找到是什么呢

chendajun

2017-08-02 09:23:43 +08:00

做爬虫也好多年了，一般抓取网站中的标题，文章发布时间，正文，文章图片。可以做到 80%用通用规则解决。
1，标题：在提取链接的时候把 link title 保存下来
2，文章发布时间：用网页 heads 里的 last modify
3，抽取正文：有开源的模块（ Python 有 readability-lxml，Java 有 JoyHtml
4，文章图片：在抽取的正文中提取<img>