V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  chuhades  ›  全部回复第 7 页 / 共 13 页
回复总数  245
1  2  3  4  5  6  7  8  9  10 ... 13  
2015-04-02 15:32:08 +08:00
回复了 chuhades 创建的主题 Python 线程中再开线程会出现问题吗?
感谢诸位,理解了
2015-03-16 18:48:12 +08:00
回复了 bleaker 创建的主题 Apple Mac Mini or MacBook Pro
如果能接受得了的话,直接 rmbp
2015-03-10 21:19:25 +08:00
回复了 jsthon 创建的主题 Apple 原来 12 寸 rMBA 是真的 各种黑科技
12' 太小了,要是我的话,还是换个13' 的 rmbp
2015-03-02 19:33:46 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@akira 是的,如果已知url量足够大的话,完全可以分析出哪里是参数。就个人的需求而言,做这个去重就是为了减少爬行的url数目。。所以感觉是个死结 : (
依旧感谢。
2015-03-01 17:26:30 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 目前的项目就是扫描器,所以不可能针对每个站点自己去制定规则 : (
2015-03-01 17:15:21 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 是的,我就是讲参数和path 分离的,但是很多url做了rewrite 或者pathinfo,如下:
http://a.com/p1/p2/a/1/b/2 ,这样的就很蛋疼,对于这种,只想出用一级目录,目录深度,尾部特征来做判断。但是可能会有漏报,比如题目中描述的 http://www.yigeshop.cn/index.php/home/shop_list/16、 http://www.yigeshop.cn/index.php/home/shop_details/24会被判断成相同的url
2015-03-01 16:54:03 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 是的 我的代码也是这么写的,但是需求如题目,按已有的规则:
http://www.yigeshop.cn/index.php/home/shop_list/16、 http://www.yigeshop.cn/index.php/home/shop_details/24 会被判断成相同的url
2015-03-01 16:52:41 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 感谢,但是和我的需求还是不大一致。其实转换个说法,相当于怎么从一个url(rewrite)中提取出参数名称?
例如 http://www.yigeshop.cn/index.php/home/shop_list/9,参数就应该是9这部分,不知道能不能理解我的意思。。
2015-03-01 16:40:44 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@chuhades 只是
2015-03-01 16:40:35 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@lk09364 就个人的项目而言,如果我爬虫爬到了http://a.com/a/b/c/1-10000 1w个链接,我希望只输出一个就好,因为他们后端调用的应该是一样的,不同的知识参数
2015-03-01 16:32:27 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@binux 如4L,url rewrite
2015-03-01 16:31:58 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 urlparse 不够强啊,http://a.com/1.php?a=1&b=2 http://a.com/1.php?b=2&a=1 这两个其实是一样的,或者http://a.com/a/b/c/1,http://a.com/a/b/c/2 这两个也是一样的。目标正式去重这些
2015-03-01 16:30:06 +08:00
回复了 chuhades 创建的主题 Python 关于 URL 去重的想法
@ruoyu0088 http://www.yigeshop.cn/index.php/home/shop_list/9 => GET|http|www.yigeshop.cn|index.php|4|||

http://www.yigeshop.cn/index.php/home/shop_details/24 => GET|http|www.yigeshop.cn|index.php|4|||

因为算法不够好,两者的特征是一样的。有什么建议么?
2015-02-26 00:02:09 +08:00
回复了 Dreista 创建的主题 天黑以后 20150226 午夜俱乐部
coding and coding...
2015-02-25 01:47:20 +08:00
回复了 msxcms 创建的主题 天黑以后 20150225 午夜俱乐部
找到了解决问题的办法,虽然不是很优雅。。。
2015-02-22 23:55:04 +08:00
回复了 msxcms 创建的主题 天黑以后 20150223 午夜俱乐部
两天没写代码了。。玩了两天 lol。。。
2015-02-20 00:24:46 +08:00
回复了 ricorico 创建的主题 天黑以后 20150220 午夜俱乐部
写了一天代码
2015-02-19 23:10:12 +08:00
回复了 snnn 创建的主题 MacBook Pro 在 mbp 2013 上安装 Linux 的经验分享
本来一直纠结装回 debian,看了下,放弃了。。
2015-02-18 23:07:20 +08:00
回复了 ak47t 创建的主题 硬件 打算换笔记本了。用了快 6 年了,是该换了。 于是来求推荐了
@MeirLin 栋栋同學;)
2015-02-18 21:49:46 +08:00
回复了 ak47t 创建的主题 硬件 打算换笔记本了。用了快 6 年了,是该换了。 于是来求推荐了
mac or thinkpad
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3108 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 10:45 · PVG 18:45 · LAX 02:45 · JFK 05:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.