V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
NoOneNoBody
V2EX  ›  Python

有没有这样的文本匹配、分类模型、包?

  •  1
     
  •   NoOneNoBody · 2023-09-26 14:33:48 +08:00 · 1095 次点击
    这是一个创建于 442 天前的主题,其中的信息可能已经有所发展或是发生改变。
    预设一个字典
    例如 其中有 “半泽直树” (简体)

    输入“『半沢直樹』(はんざわ なおき)は、TBS 系列「日曜劇場」枠で放送された、池井戸潤の小説「半沢直樹シリーズ」を原作としたテレビドラマである。主演は堺雅人。 ”

    能找到最接近的词是 “半泽直树”
    这里涉及繁体字、异体字问题,原文“直”也是异体字,复制到这里就变了

    又如,“Yuuka Hanazawa” 能匹配出 "Hanazawa Yuka",这里涉及姓名前后写法、日语罗马字拼写的差异

    没有搜到,中日韩的项目本来就稀少,跨民族语言的更少
    看看有没有动漫爱好者知道一些特别的项目可以做这个
    6 条回复    2023-09-27 18:08:54 +08:00
    NoOneNoBody
        2
    NoOneNoBody  
    OP
       2023-09-26 16:57:50 +08:00
    @Lychee0 #1
    哇哦,这是个大型模型,对我这个仅面向词语的需求来说,重了,建模恐怕都要很久
    不过这东西有点意思,mark 一下慢慢看

    暂时看第二个需求(英语),用 neofuzz 效果还算不错,只是 neofuzz 对短单词准确率低
    日语汉字转简体暂时想到 opencc ,试了一些还可以,然后再想匹配的事
    Lychee0
        3
    Lychee0  
       2023-09-26 17:17:52 +08:00 via iPad   ❤️ 1
    1 感觉还是多语言 word embedding 做对齐好点
    2 tokenization 下找个模糊匹配的库就好吧(猜
    hsfzxjy
        4
    hsfzxjy  
       2023-09-26 17:32:36 +08:00 via Android   ❤️ 1
    第一个能不能正则化后直接搜索呢?比如都转成简体
    NoOneNoBody
        5
    NoOneNoBody  
    OP
       2023-09-26 18:12:20 +08:00
    @hsfzxjy #4
    我想不到字典有几万个词时的正则方案
    hsfzxjy
        6
    hsfzxjy  
       2023-09-27 18:08:54 +08:00 via Android
    @NoOneNoBody 这里正则不是说用正则表达式,而是说把两边都转换成一个统一的形式,比如都用简体
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2864 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:46 · PVG 20:46 · LAX 04:46 · JFK 07:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.