timliu22322266

timliu22322266

V2EX 第 360160 号会员,加入于 2018-11-01 14:46:09 +08:00
根据 timliu22322266 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
timliu22322266 最近回复了
2018-11-08 12:24:38 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值,
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算,再放进 cookie 中
429 的错误已解决,目前稳定爬资料一晚.
2018-11-08 09:48:28 +08:00
回复了 timliu22322266 创建的主题 程序员 PornHub 爬蟲
Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值,
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算,再放进 cookie 中
429 的错误已解决,目前稳定爬资料一晚。
2018-11-08 00:00:34 +08:00
回复了 timliu22322266 创建的主题 程序员 PornHub 爬蟲
@shenxgan 老司机~ 够专业 XD.
2018-11-03 20:47:04 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
增加了 spring boot - H2 DB 增加了 config 讓使用者可選擇是否下載(僅蒐集已爬過的資料)

啟動 jar 後 在瀏覽器打 http://localhost:8000/h2-console/ 會出現 DB 管理頁面
2018-11-02 21:26:15 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
@Tink
@dream10201

感謝回覆, 還有其他意見歡迎在提供 我會視情況增加至我的專案
2018-11-02 21:22:56 +08:00
回复了 timliu22322266 创建的主题 Java PornHub 爬蟲心得
今日在公司有了新想法,
1.预计会增加 h2xSpirngDB 纪录已攀过的网站
2.增加 config.properties 可选择不进行下载
3.增加搜寻页面可查看数据库资料
4.Java Deep 对一些资料做出分析整理(这里完全没有概念...预计要 2~3 周时间才能做到了)


喜欢的朋友可帮点星代表对我的支持:)
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3385 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 00:54 · PVG 08:54 · LAX 16:54 · JFK 19:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.