栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 软件开发 > 后端开发 > Java

ElasticSearch 初学

Java 更新时间:发布时间: 百科书网 趣学号

ElasticSearch 初学
  • 什么是全文索引
  • 什么是倒排索引
  • 什么是分词
    • 分词器有哪些(自带的)
    • 中文分词器
  • ElasticSearch基本概念
    • 关系型数据库 VS ElasticSearch
    • 索引(Index)
    • 文档(Document)
  • ElasticSearch索引操作
    • 创建索引
    • 查询索引
    • 删除索引
  • ElasticSearch文档操作
    • 添加(索引)文档
    • 修改文档
    • 并发场景下修改文档
    • 查询文档
    • 删除文档
  • ElasticSearch文档批量操作
    • 批量写入
    • 批量读取

ES环境搭建视频

什么是全文索引
  • 扫码文本全部词句,建立对应的索引,并记录词句的位置与次数.
  • 用户查询词句,通过建立的索引进行筛选,返回给用户展示
什么是倒排索引
  • 正排索引是根据数据id 找到内容
  • 倒排索引则是根据内容找数据id
什么是分词
  • 将文本拆分成单个字或词语
分词器有哪些(自带的)
  • Standard Analyzer

    • 默认分词器
    • 按词切分,支持多语言
    • 小写处理
    • 支持中文采用的方法为单字切分
  • Simple Analyzer

    • 按照非字母切分
    • 小写处理
  • Whitespace Analyzer

    • 空白字符作为分隔符
  • Stop Analyzer

    • 相比Simple Analyzer多了去除请用词处理
  • 停用词指语气助词等修饰性词语,如the, an, 的, 这等

    • Keyword Analyzer
    • 不分词,直接将输入作为一个单词输出
  • Pattern Analyzer

    • 通过正则表达式自定义分隔符
    • 默认是W+,即非字词的符号作为分隔符
中文分词器
  • 难点
    • 中文分词指的是将一个汉字序列切分为一个一个的单独的词。在英文中,单词之间以空格作为自然分界词,汉语中词没有一个形式上的分界符
    • 上下文不同,分词结果迥异,比如交叉歧义问题
  • 常见分词系统
    • IK:实现中英文单词的切分,可自定义词库,支持热更新分词词典
    • jieba:支持分词和词性标注,支持繁体分词,自定义词典,并行分词等
    • Hanlp:由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用
    • THUAC:中文分词和词性标注
ElasticSearch基本概念 关系型数据库 VS ElasticSearch
  • 在7.0之前,一个 Index可以设置多个Types
  • 目前Type已经被Deprecated,7.0开始,一个索引只能创建一个Type - “_doc”
  • 传统关系型数据库和Elasticsearch的区别:
    • Elasticsearch- Schemaless /相关性/高性能全文检索
    • RDMS —事务性/ Join
索引(Index)
  • 一个索引就是一个拥有几分相似特征的文档的集合。比如说,可以有一个客户数据的索引, 另一个产品目录的索引,还有一个订单数据的索引。
  • 一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中 的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。
文档(Document)
  • Elasticsearch是面向文档的,文档是所有可搜索数据的最小单位。
    • 日志文件中的日志项
    • 一本电影的具体信息/一张唱片的详细信息
    • MP3播放器里的一首歌/一篇PDF文档中的具体内容
  • 文档会被序列化成JSON格式,保存在Elasticsearch中
    • JSON对象由字段组成
    • 每个字段都有对应的字段类型(字符串/数值/布尔/日期/二进 制/范围类型)
  • 每个文档都有一个Unique ID
    • 可以自己指定ID或者通过Elasticsearch自动生成(建议ES生成)
  • 一篇文档包含了一系列字段,类似数据库表中的一条记录
  • JSON文档,格式灵活,不需要预先定义格式
    • 字段的类型可以指定或者通过Elasticsearch自动推算
    • 支持数组/支持嵌套
  • 文档元数据
    • _index:文档所属的索引名
    • _type:文档所属的类型名
    • _id:文档唯—ld
    • _source: 文档的原始Json数据
    • _version: 文档的版本号,修改删除操作_version都会自增1
    • _seq_no: 和_version一样,一旦数据发生更改,数据也一直是累计的。 Shard级别严格递增,保证后写入的Doc的_seq_no大于先写入的Doc的_seq_no。
    • _primary_term: _primary_term主要是用来恢复数据时处理当多个文档的 _seq_no一样时的冲突,避免Primary Shard上的写入被覆盖。每当Primary Shard 发生重新分配时,比如重启,Primary选举等,_primary_term会递增1。
ElasticSearch索引操作 创建索引

索引命名必须小写,不能以下划线开头
格式: PUT /索引名称

  #创建索引 
  PUT /es_db 

  #创建索引时可以设置分片数和副本数 
  PUT /es_db 
  { 
    "settings" : {
      "number_of_shards" : 3, 
      "number_of_replicas" : 2 
    } 
  }
  
  #修改索引配置 
  PUT /es_db/_settings 
  { 
    "index" : { 
      "number_of_replicas" : 1 
    } 
  }
查询索引

格式: GET /索引名称

  #查询索引 
  GET /es_db 

  #es_db是否存在 
  HEAD /es_db
删除索引

格式: DELETe /索引名称

  #DELETE /es_db
ElasticSearch文档操作

示例数据

  PUT /es_db
  {
      "settings" : {
          "index" : {
              "analysis.analyzer.default.type": "ik_max_word"
          }
      }
  }
  
  PUT /es_db/_doc/1
  {
  "name": "张三",
  "sex": 1,
  "age": 25,
  "address": "广州天河公园",
  "remark": "java developer"
  }
  PUT /es_db/_doc/2
  {
  "name": "李四",
  "sex": 1,
  "age": 28,
  "address": "广州荔湾大厦",
  "remark": "java assistant"
  }
  
  PUT /es_db/_doc/3
  {
  "name": "王五",
  "sex": 0,
  "age": 26,
  "address": "广州白云山公园",
  "remark": "php developer"
  }
  
  PUT /es_db/_doc/4
  {
  "name": "赵六",
  "sex": 0,
  "age": 22,
  "address": "长沙橘子洲",
  "remark": "python assistant"
  }
  
  PUT /es_db/_doc/5
  {
  "name": "张龙",
  "sex": 0,
  "age": 19,
  "address": "长沙麓谷企业广场",
  "remark": "java architect assistant"
  }	
      
  PUT /es_db/_doc/6
  {
  "name": "赵虎",
  "sex": 1,
  "age": 32,
  "address": "长沙麓谷兴工国际产业园",
  "remark": "java architect"
  }	
添加(索引)文档

格式: [PUT | POST] /索引名称/[_doc | _create ]/id

# 创建文档,指定id
# 如果id不存在,创建新的文档,否则先删除现有文档,再创建新的文档,版本会增加
  PUT /es_db/_doc/1
  {
  "name": "张三",
  "sex": 1,
  "age": 25,
  "address": "广州天河公园",
  "remark": "java developer"
  }	
  
  #创建文档,ES生成id
  POST /es_db/_doc
  {
  "name": "张三",
  "sex": 1,
  "age": 25,
  "address": "广州天河公园",
  "remark": "java developer"
  }

注意:POST和PUT都能起到创建/更新的作用,PUT需要对一个具体的资源进行操作也就是要确定id才能进行更新/创建,而POST是可以针对整个资源集合进行操作的,如果不写id就由ES生成一个唯一id进行创建新文档,如果填了id那就针对这个id的文档进行创建/更新
注意:Create -如果ID已经存在,会失败

修改文档
# 全量更新,替换整个json
  PUT /es_db/_doc/1/
  {
  "name": "张三",
  "sex": 1,
  "age": 25
  }

全量更新,整个json都会替换,格式: [PUT | POST] /索引名称/_doc/id
注意:如果文档存在,现有文档会被删除,新的文档会被索引

  • 使用_update部分更新,格式: POST /索引名称/_update/id
    • update不会删除原来的文档,而是实现真正的数据更新
# 部分更新:在原有文档上更新
# update -文档必须已经存在,更新只会对相应字段做增量修改
  POST /es_db/_update/1
  {
    "doc": {
      "age": 28
    }
  }
  • 使用 _update_by_query 更新文档
  POST /es_db/_update_by_query
  {
    "query": { 
      "match": {
        "_id": 1
      }
    },
    "script": {
      "source": "ctx._source.age = 30"
    }
  }
并发场景下修改文档

_seq_no和_primary_term是对_version的优化,7.X版本的ES默认使用这种方式控制版本,所以当在高并发环境下使用乐观锁机制修改文档时,要带上当前文档的_seq_no和_primary_term进行更新:

  POST /es_db/_doc/2?if_seq_no=21&if_primary_term=6
  {
    "name": "李四xxx"
  }

注意:如果版本号不对,会抛出版本冲突异常

查询文档
  • 根据id查询文档,格式: GET /索引名称/_doc/id
  GET /es_db/_doc/1
  • 搜索文档, 格式: GET /索引名称/_doc/_search
  GET /es_db/_doc/_search
  • ES Search API提供了两种条件查询搜索方式
    • REST风格的请求URI,直接将参数带过去
  #通过URI搜索,使用“q”指定查询字符串,“query string syntax” KV键值对
  
  #条件查询, 如要查询age等于28岁的 _search?q=*:***
  GET /es_db/_doc/_search?q=age:28
  
  #范围查询, 如要查询age在25至26岁之间的 _search?q=***[** TO **] 注意: TO 必须为大写
  GET /es_db/_doc/_search?q=age[25 TO 26]
  
  #查询年龄小于等于28岁的 :<=
  GET /es_db/_doc/_search?q=age:<=28
  #查询年龄大于28前的 :>
  GET /es_db/_doc/_search?q=age:>28
  
  #分页查询 from=*&size=*
  GET /es_db/_doc/_search?q=age[25 TO 26]&from=0&size=1
  
  #对查询结果只输出某些字段 _source=字段,字段
  GET /es_db/_doc/_search?_source=name,age
  
  #对查询结果排序 sort=字段:desc/asc
  GET /es_db/_doc/_search?sort=age:desc
  • 封装到request body中,这种方式可以定义更加易读的JSON格式
  GET /es_db/_search
  {
    "query": {
      "match": {
        "address": "广州白云"
      }
    }
  }
删除文档
  • 根据id删除文档 格式:DELETe /索引名称/_doc/id
  DELETE /es_db/_doc/1
ElasticSearch文档批量操作

批量操作可以减少网络连接所产生的开销,提升性能

注意: 这种批量处理操作没有事务

  • 支持在一次API调用中,对不同的索引进行操作
  • 可以在URI中指定Index,也可以在请求的Payload中进行
  • 操作中单条操作失败,并不会影响其他操作
  • 返回结果包括了每一条操作执行的结果
批量写入

批量对文档进行写操作是通过_bulk的API来实现的

  • 请求方式:POST
  • 请求地址:_bulk
  • 请求参数:通过_bulk操作文档,一般至少有两行参数(或偶数行参数)
    • 第一行参数为指定操作的类型及操作的对象(index,type和id)
    • 第二行参数才是操作的数据
actionName:表示操作类型,主要有 create, index, delete 和 update
  POST _bulk
  { "index" : { "_index" : "test", "_id" : "1" } }
  { "field1" : "value1" }
  
  { "delete" : { "_index" : "test", "_id" : "2" } }
  { "create" : { "_index" : "test2", "_id" : "3" } }
  { "field1" : "value3" }
  
  { "update" : {"_id" : "1", "_index" : "test"} }
  { "doc" : {"field2" : "value2"} }
  注意 Bulk 请求体的数据量不宜过大,建议在 5~15M
批量读取

es的批量查询可以使用 _mget 和 _msearch 两种。其中 _mget 是需要我们知道它的id,可以指定不同的index,也可以指定返回值source。_msearch可以通过字段查询来进行一个批量的查找

  • _mget
  #可以通过ID批量获取不同index和type的数据
  GET _mget
  {
  "docs": [
  {
  "_index": "es_db",
  "_id": 1
  },
  {
  "_index": "article",
  "_id": 4
  }
  ]
  }
  
  #可以通过ID批量获取es_db的数据
  GET /es_db/_mget
  {
  "docs": [
  {
  "_id": 1
  },
  {
  "_id": 4
  }
  ]
  }
  #简化后
  GET /es_db/_mget 
  {
   "ids":["1","2"]  
  }
  • _msearch
  GET /es_db/_msearch
  {} # 索引名称,不写的话就是 URI 中的索引
  {"query" : {"match_all" : {}}, "from" : 0, "size" : 2}
  {"index" : "article"}
  {"query" : {"match_all" : {}}}
转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/986785.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号