syaoranex 最近的时间轴更新

syaoranex

V2EX 第 382173 号会员，加入于 2019-02-05 21:33:20 +08:00

syaoranex 提问技术话题好玩工作信息交易信息城市相关

根据 syaoranex 的设置，主题列表被隐藏

二手交易相关的信息，包括已关闭的交易，不会被隐藏

syaoranex 最近回复了

4 天前

回复了 hunterzhang86 创建的主题 › OpenAI › 才发现在 OpenAI 购买的 API 额度有过期时间，坑爹。。。

你这还不是最惨的，不如遇到 bug 的我：我充了几十刀，基本没用，但是 Usage 里却显示已经全部用完了（在有效期内看到的）。
基本没用，是因为我是把官方的 api 当备用，一直用的便宜的中转。并且官网的 usage 页面里，我查看了自充值以来到现在的每个月的消费账单，基本都不超过 0.3 刀。但是余额就是显示用完了，就是这么离谱，我还不敢跟官方发信咨询，生怕客服看到我绑的卡是虚拟卡封我的号。就当这钱是打水漂了吧。

23 天前

回复了 love2328 创建的主题 › OpenAI › 通过简单的贷款利率,判断出很大 ai 都不如 chatgpt

这个问题必须给足条件才有意义：

我向银行借款 2000, 分 12 期等额本息还款, 每期还款 200.92 , 这样算下来贷款的名义年利率是多少？

只要 AI 能调用代码执行器基本就能回答正确。

67 天前

回复了 andforce 创建的主题 › 程序员 › 约 192GB 短信样本如何标记分类？

没必要所有的短信都拿来训练，同意楼上所说，可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候，可以先用正则等文本匹配来识别短信发送源，例如 [XX 应用] 之类的，然后在每个发送源下，使用文本嵌入模型转换向量，之后对向量进行聚类，建议聚多个类，挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快，因为文本嵌入模型一般不大，运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快，可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法，这种方法也许更适合，如果数据集中同一来源的大多数短信是套取模板（比如运营商的话费流量短信）生成的，那么可以针对模板类短信取其中千分之一的样本，模板类短信之外的取较大比例的样本，覆盖度更好。

之后就是用 LLM 来进行文本分类了，文本分类任务上，再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题，可以搭配提示工程尝试效果不错的小模型，或者使用 Groq 等平台，它们提供了吞吐速度较快的大模型，分类任务足够了；而且可以搭配工程实现的优化：对于同一个聚类样本，例如 2K 条样本，如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信，那么可以将后 1K 条样本直接划为垃圾短信，这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理，我认为资金充足的情况下，1 秒 10 个的处理速度还是可以达到的。按照这个速度，一个月可以弄完 2.5 kW 条样本的分类。

199 天前

回复了 guazila 创建的主题 › OpenAI › GPT-4o 中文对话答非所问

@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593)，里面有解析幽灵 Token 的代码，可以自行上手验证。

199 天前

回复了 guazila 创建的主题 › OpenAI › GPT-4o 中文对话答非所问

这没有什么好奇怪的，你只是遇到了「 SolidGoldMagikarp 」现象，或称「幽灵 Token 现象」。详情可以参考这篇文章： https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说，4o 的词表训练的时候，用了大量网路爬虫资讯，其中囊括了大量受污染的词汇，这些词汇出现多了之后，出现次数较多的词组就会被固定在分词模型中。但是在训练的时候，用的则是另一批中文语料，或者这些受污染的词汇网页被清洗了，所以这些 token 没有被充分训练，模型对这些 token 相当陌生，只能大概直到它和某些娱乐、信息、网站相关，所以回复就会比较随机，有时能碰对，有时回复又会天马行空。

用个形象的比喻来说，在大语言模型眼里，幽灵 Token 相当于汉字使用者看到这句话：「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格，就可以将这个幽灵 Token 破坏为两个普通 Token ，这个时候，模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」，你替换为「介绍一下中国福利彩票天天」，或者「介绍一下中国福利彩票天天」，结果就会不一样。

296 天前

回复了 seekseat 创建的主题 › 成都 › 年后想在成都买房，工作地在武侯。首付东拼西凑大概 80w，考虑价格和通勤，各位 V 友有什么区块或楼盘推荐

赞同楼上，买房是现在最不应该着急的事情。

320 天前

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

告知：今年 GLM-4 模型发布了，以上大部分问题 GLM-4 都可以解决，例子已经失效了。

341 天前

回复了 syaoranex 创建的主题 › OpenAI › 使用 Google 订阅 ChatGPT Plus 的风险提醒

@cherryas 谷歌账号废掉。

343 天前

回复了 syaoranex 创建的主题 › OpenAI › 使用 Google 订阅 ChatGPT Plus 的风险提醒

@klo424 我的账号就是很久以前注册的，一样被查。

@SenLief 最让我困惑的是这个付款资料我都不知道什么时候设置的了，起码距离上次修改账号设置有大半年或者将近一年以上了。所以应该不是迁移区域触发的。

@travellerly 现在注册和订阅 GPT 都不需要手机号。但使用礼品卡订阅的话，你需要应付的风险是谷歌的身份信息抽查或者 Apple 外区账号的封号。

» syaoranex 创建的更多回复