Skip to content

1、我们可以在 Elasticsearch 中执行搜索的各种可能方式有哪些?

核心方式如下:

方式一:基于 DSL 检索(最常用) Elasticsearch提供基于JSON的完整查询DSL来定义查询。

GET /shirts/_search
{
  "query": {
    "bool": {
      "filter": [
        { "term": { "color": "red"   }},
        { "term": { "brand": "gucci" }}
      ]
    }
  }
}

方式二:基于 URL 检索

GET /my_index/_search?q=user:seina

方式三:类SQL 检索

POST /_sql?format=txt
{
  "query": "SELECT * FROM uint-2020-08-17 ORDER BY itemid DESC LIMIT 5"
}

功能还不完备,不推荐使用。

2、ElasticSearch对于大数据量(上亿量级)的聚合如何实现?

ElasticSearch提供的首个近似聚合是cardinality度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。HLL会先对我们的输入做哈希运算,然后根据哈希运算结果中的bits做概率估算从而得到基数。其特点是:

可配置的精度,用来控制内存的使用(更精确=更多内存),小的数据集精度是非常高的;我们可以通过配置参数来设置去重需要的固定内存使用量,无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关 。

图片

3、详细描述一下 Elasticsearch 索引文档的过程

面试官:想了解 ES 的底层原理,不再只关注业务层面了。

这里的索引文档应该理解为文档写入 ES,创建索引的过程。文档写入包含:单文档写入和批量 bulk 写入,这里只解释一下:单文档写入流程。

**第一步:**客户写集群某节点写入数据,发送请求。(如果没有指定路由/协调节点,请求的节点扮演路由节点的角色。)

**第二步:**节点 1 接受到请求后,使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点,假定节点 3。因此分片 0 的主分片分配到节点 3 上。

**第三步:**节点 3 在主分片上执行写操作,如果成功,则将请求并行转发到节点 1和节点 2 的副本分片上,等待结果返回。所有的副本分片都报告成功,节点 3 将向协调节点(节点 1)报告成功,节点 1 向请求客户端报告写入成功。

**如果面试官再问:**第二步中的文档获取分片的过程?

回借助路由算法获取,路由算法就是根据路由和文档 id 计算目标的分片 id 的

过程。

1shard = hash(_routing) % (num_of_primary_shards)

4、elasticsearch 数据预热

数据预热是指,每隔一段时间,将热数据

手动在后台查询一遍,将热数据刷新到fileSystem cache上

5、如何使用 Elasticsearch Tokenizer?

Tokenizer 接收字符流(如果包含了字符过滤,则接收过滤后的字符流;否则,接收原始字符流),将其分词。同时记录分词后的顺序或位置(position),以及开始值(start_offset)和偏移值(end_offset-start_offset)。

6、elasticsearch 数据的写入原理

es数据写入原理主要可以分为4个操作:

1、 refresh

2、 commit

3、 flush

4、 merge

操作触发条件操作过程
refresh1\、每隔1s进行一次refresh操作
2\、buffer已满,则进行一次refresh操作
2\、清空buffer
commit1\、每隔30分钟执行一次translog
2\、translog日志已满
2\、生成一个 commit point 文件标识此次操作一件把buffer数据执行到了哪一个segment文件
3\、执行flush操作
flushcommit操作中
merge后台检查

7、你是如何做 ElasticSearch 写入调优的?

1)写入前副本数设置为0;

2)写入前关闭refresh_interval设置为-1,禁用刷新机制;

3)写入过程中:采取bulk批量写入;

4) 写入后恢复副本数和刷新间隔;

5) 尽量使用自动生成的id。

8、Elasticsearch是如何实现Master选举的?

1、 Elasticsearch的选主是ZenDiscovery模块负责的,主要包含Ping(节点之间通过这个RPC来发现彼此)和Unicast(单播模块包含一个主机列表以控制哪些节点需要ping通)这两部分;

2、 对所有可以成为master的节点(node.master: true)根据nodeId字典排序,每次选举每个节点都把自己所知道节点排一次序,然后选出第一个(第0位)节点,暂且认为它是master节点。

3、 如果对某个节点的投票数达到一定的值(可以成为master节点数n/2+1)并且该节点自己也选举自己,那这个节点就是master。否则重新选举一直到满足上述条件。

4、 补充:master节点的职责主要包括集群、节点和索引的管理,不负责文档级别的管理;data节点可以关闭http功能*。

9、ElasticSearch主分片数量可以在后期更改吗?为什么?

不可以,因为根据路由算法shard = hash(document_id) % (num_of_primary_shards),当主分片数量变化时会影响数据被路由到哪个分片上。

10、如何监控 Elasticsearch 集群状态?

Marvel 让你可以很简单的通过 Kibana 监控 Elasticsearch。你可以实时查看你的集群健康状态和性能,也可以分析过去的集群、索引和节点指标。

11、你能否在 Elasticsearch 中定义映射?

12、elasticsearch 的倒排索引是什么

13、lucence内部结构是什么?

14、详细描述一下ElasticSearch更新和删除文档的过程

15、在 Elasticsearch 中列出集群的所有索引的语法是什么?

16、elasticsearch 的 filesystem

17、Elasticsearch Analyzer 中的字符过滤器如何利用?

18、详细描述一下Elasticsearch搜索的过程。

19、什么是Elasticsearch Analyzer?

20、token filter 过滤器 在 Elasticsearch 中如何工作?

21、elasticsearch 数据的写入过程

22、迁移 Migration API 如何用作 Elasticsearch?

23、是否了解字典树?

24、详细说明ELK Stack及其内容?

25、ElasticSearch中的分析器是什么?

用心去做高质量的内容网站,欢迎 star ⭐ 让更多人发现