V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
BillTin
V2EX  ›  奇思妙想

构想:浏览器/浏览器插件/……,用于收集访问的网页/应用呈现的信息,供收集语料用于 AI 大模型的训练

  •  
  •   BillTin · 314 天前 · 1062 次点击
    这是一个创建于 314 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在 AI 大模型的语料收集是一个难题:绝大多数平台,登录、甚至是下载 APP 才能访问其提供的内容。当然,搞逆向工程也能去抓取数据,但是平台那边肯定不能容忍这种行为的。如果是用户按照一般的方式访问,获取内容应该更加顺利。因此我就有了该构想。

    用户访问内容的时候,这个工具可以读取访问的文本、图像、视频等信息,收集给工具的提供方,由提供方处理分析,获得能够用于训练的语料。读取方式包括但不限于:读取页面文本等信息、读取浏览器已下载的内容、截屏 OCR 。

    这个工具可以做成浏览器、浏览器插件或者是 App ,用户能够通过该工具获得一定的报酬。

    这种方式的优势基本上就是稳定、不容易被拦截,可以以众包的方式做到大范围的抓取,比较容易防止千人千面、大数据杀熟等情况对收集得到的信息造成影响。

    但是劣势也非常明显:极易侵犯用户的隐私。

    不知道是否有已经做这种东西的,先写出来看看大家的想法吧。

    2 条回复    2024-01-23 23:29:41 +08:00
    little_cup
        1
    little_cup  
       314 天前
    李彦宏说得对。
    hamsterbase
        2
    hamsterbase  
       314 天前
    如果只是为了保存自己的数据, 然后训练, 可以试试看 hamsterbase .

    本地软件,数据都在你本地,也有 API 可以获取全部的数据。

    如果要开发 chrome 插件获取网页内容,可以用 chrome.pageCapture.saveAsMHTML 这个 API 。或者也可以直接用开源的 singilefile 插件, 他提供了打开网页后自动保存完整 html 的功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5850 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 03:01 · PVG 11:01 · LAX 19:01 · JFK 22:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.