V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
josherich
V2EX  ›  分享创造

中文敏感词同音字替换工具

  •  1
     
  •   josherich ·
    josherich · 2019-03-20 22:27:44 +08:00 · 8797 次点击
    这是一个创建于 2085 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用同音字替换敏感词

    live demo

    Caveats

    • 实现不包含分词,因此例如“干”这样的单字会被替换,以及一些语义错误替换,可在 checkbox 中勾去
    • 词库直接决定了替换的质量,这里使用的词库来自于 github/sensitive-word-filter

    声明

    • 此工具仅供同音字替换功能,请合理使用
    • 此工具大部分代码源自以下项目
      • github/pinyinjs
      • github/sensitive-word-filter

    todos

    • 更完整的词库
    • 自定义替换
    第 1 条附言  ·  2019-03-21 10:42:43 +08:00
    补充几点
    - 加入形近字和替换单字的混合方案会提高可读性,会是非常大的改进
    - 这类工具最合适的使用场景是文字被系统拒绝后,往往需要自我参茶,反复修改,因为系统不会告诉你关键字。
    - 最重要的,这类工具绝不是为了发布含有会被参茶内容的文字,这是一个太大的话题,不是一个简单的混淆工具可以解决,或试图解决的
    第 2 条附言  ·  2019-05-23 03:55:12 +08:00

    2019-05-22 增加 Chrome Extension

    37 条回复    2019-03-25 16:18:27 +08:00
    AlisaDestiny
        1
    AlisaDestiny  
       2019-03-20 22:53:36 +08:00   ❤️ 2
    还是研究一下形近字吧,因为形近字本基上丕影响阋读。
    josherich
        2
    josherich  
    OP
       2019-03-20 23:06:11 +08:00
    @AlisaDestiny 形近字确实较易阅读,但有稀疏性的问题,并不是每个敏感字都有对应的合适形近字,我也没有找到比较好的词典。另一种形近实现是火星文,阅读体验也一般。可以考虑融合这几种实现
    kylehz
        3
    kylehz  
       2019-03-20 23:53:14 +08:00 via Android
    可以在敏感字中插入不相干的中文字或者英文字母
    也可以调换字的顺序,部分乱序不影响阅读
    zbinlin
        4
    zbinlin  
       2019-03-21 00:23:20 +08:00   ❤️ 31
    现代通假字,想想都觉得可悲
    Android2MCU
        5
    Android2MCU  
       2019-03-21 00:31:12 +08:00 via iPhone
    清风不识字,何故乱翻书
    josherich
        6
    josherich  
    OP
       2019-03-21 00:39:12 +08:00   ❤️ 2
    @zbinlin 其实避讳周朝已有之,是礼乐文明的标志
    feiyuanqiu
        7
    feiyuanqiu  
       2019-03-21 00:45:15 +08:00   ❤️ 1
    "下一 esrever 子句把,法办的单简个一有,词感敏避逃".split("").reverse().join("")
    zbinlin
        8
    zbinlin  
       2019-03-21 00:55:12 +08:00   ❤️ 7
    @josherich 避讳是礼乐文明的标志?还不如说避讳是在礼乐文明中产生的怪胎。
    affyun
        9
    affyun  
       2019-03-21 01:27:20 +08:00   ❤️ 1
    非常适合猪圈食用
    yanaraika
        10
    yanaraika  
       2019-03-21 01:41:07 +08:00 via Android
    ╔═╤═╤═╤═╤═╗
    ║┊│┊│用│测│:║
    ║┊│┊│直│鞋│砌║
    ║┊│┊│①│和│圌║
    ║┊│┊│┊│款│视║
    ║┊│┊│┊│蔗│圌║
    ╚═╧═╧═╧═╧═╝

    http://m.xiaohexie.com/#
    josherich
        11
    josherich  
    OP
       2019-03-21 01:41:56 +08:00   ❤️ 2
    @zbinlin 反讽而已,对付礼乐文明需要我们每个人熟练掌握反讽和春秋笔法
    green15
        12
    green15  
       2019-03-21 02:37:08 +08:00 via iPhone
    当年的各种河蟹专用工具,不知道现在还活不活
    RqPS6rhmP3Nyn3Tm
        13
    RqPS6rhmP3Nyn3Tm  
       2019-03-21 06:00:29 +08:00 via iPhone
    这不就是当年的火星文吗……
    nanaw
        14
    nanaw  
       2019-03-21 06:58:03 +08:00 via Android
    用到这玩意真是可悲。话又说回来,干嘛要在国内平台上说话呢。

    还有 demo 里那些敏感词我想只替换一两个字就够没必要替换整个词霸气。。
    nanaw
        15
    nanaw  
       2019-03-21 06:58:40 +08:00 via Android
    @nanaw 词吧$。
    clino
        16
    clino  
       2019-03-21 07:43:57 +08:00
    伐伦供 敏术 功单党 敏术自由
    这基本上没有可读性了都...
    Kazuhira
        17
    Kazuhira  
       2019-03-21 07:53:10 +08:00 via Android
    然后再来个敏感词 list ?
    hugee
        18
    hugee  
       2019-03-21 07:59:48 +08:00 via Android
    比形近字差十万八千里
    zmz125000
        19
    zmz125000  
       2019-03-21 08:00:41 +08:00 via Android
    替换了也不敢发
    NaiveSimpleYoung
        20
    NaiveSimpleYoung  
       2019-03-21 08:29:14 +08:00 via Android
    替换了你更加鹤立鸡群了,找你喝茶更方便了。
    ctro15547
        21
    ctro15547  
       2019-03-21 08:31:51 +08:00
    火星文转换器 了解一下?洤國亾姄笩錶汏浍
    lihua
        22
    lihua  
       2019-03-21 08:44:56 +08:00
    @ctro15547 火星文 +1
    md5
        23
    md5  
       2019-03-21 08:52:37 +08:00 via iPhone
    你这还不如火星文好懂
    darmau
        24
    darmau  
       2019-03-21 09:20:31 +08:00 via iPhone
    我国早就能识别这种谐音了
    kukumao
        25
    kukumao  
       2019-03-21 10:00:17 +08:00
    来个 php 版本的吧
    Zeonjl
        26
    Zeonjl  
       2019-03-21 10:14:28 +08:00 via iPhone
    这个中文会在我们的有生之年在网络媒体消失吗?
    noFound
        27
    noFound  
       2019-03-21 10:25:19 +08:00
    可读性太差,还不如拆字
    mansurx
        28
    mansurx  
       2019-03-21 10:29:36 +08:00   ❤️ 2
    ╔═╤═╤═╤═╤═╗
    ║┊│个│人│玩│十║
    ║┊│┊│都│过│几║
    ║┊│┊│知│贴│年║
    ║┊│┊│道│吧│前║
    ║┊│┊│这│的│,║
    ╚═╧═╧═╧═╧═╝
    https://github.com/FangHeXie/download
    hoosin
        29
    hoosin  
       2019-03-21 10:45:47 +08:00
    有什么意义呢
    mercury8
        30
    mercury8  
       2019-03-21 11:04:00 +08:00 via iPhone
    想到了马伯庸的一个短篇 《寂静之城》
    sobigfish
        31
    sobigfish  
       2019-03-21 11:52:03 +08:00
    @hoosin #29 自我审查 /河蟹
    omph
        32
    omph  
       2019-03-21 12:29:50 +08:00   ❤️ 1
    这里应该用的上
    https://github.com/liuhuanyong
    tvallday
        33
    tvallday  
       2019-03-23 09:38:22 +08:00 via Android
    可以用日本的和制汉字代替。
    tvallday
        34
    tvallday  
       2019-03-23 09:40:01 +08:00 via Android
    @Kazuhira 敏感词 list 无边无际,根本不知道什么时候写了敏感词。
    josherich
        35
    josherich  
    OP
       2019-03-23 21:38:25 +08:00 via iPhone
    @tvallday 不错的办法,但没有现成的字典,稀疏性也是一个问题
    Telegram
        36
    Telegram  
       2019-03-25 10:12:32 +08:00
    原来谷歌输入法有个扩展功能,可以自己根据需要用 lua 语音写函数。比如每个字中间加■,特■别■适■合■游戏■里■骂■战,哈哈。

    可惜,现在谷歌不更新了,兼容性比较差。
    qingyang
        37
    qingyang  
       2019-03-25 16:18:27 +08:00 via Android
    当所有人都噤声的时候,就是一切都结束的时候
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1494 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 23:55 · PVG 07:55 · LAX 15:55 · JFK 18:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.