V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
herosbd1
V2EX  ›  Elasticsearch

Elasticsearch 检索多语种混合文档

  •  
  •   herosbd1 · 2021-11-27 14:04:15 +08:00 · 1581 次点击
    这是一个创建于 1100 天前的主题,其中的信息可能已经有所发展或是发生改变。
    要检索的文档既有中文,也有英文,还有少量带变音符号的词(类似法语德语等其它欧洲语言)。希望检索具有中文分词,去除英文屈折变化与变音符号(比如查 abandon 可以匹配到 abandoned 和Äbandonéd )

    如果是纯中文+英文,可以用这样的分析器:
    "analyzer": {
    "optimizeIK": {
    "type": "custom",
    "tokenizer": "ik_max_word",
    "filter": [ "stemmer" ]
    }
    }

    如果是纯英文加变音符号,可以用这样的分析器:
    "analyzer": {
    "optimizeIK": {
    "type": "custom",
    "tokenizer": "standard",
    "filter": [ "stemmer", "asciifolding" ]
    }
    }

    但如果三种类型都有,我就不知道要怎么办了。试了下面的写法,发现 asciifolding 过滤器没起作用。感觉是和 ik 冲突了?
    "analyzer": {
    "optimizeIK": {
    "type": "custom",
    "tokenizer": "ik_max_word",
    "filter": [ "stemmer", "asciifolding" ]
    }
    }
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2610 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 06:34 · PVG 14:34 · LAX 22:34 · JFK 01:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.