SJDocs

1、如何知道消费者消费到哪一条消息了？

Kafka本地文件

Zookeeper当中的节点数据记录

offset偏移量，就是记录我们消费到那一条记录

offset

2、hbase和hive的区别

1、 hive是为了简化mr程序而生的，

hive是基于hadoop的一个数据仓库工具，可以将结构化工具映射成一张表数据库，并提供sql查询功能，可以将sql语句转化为mr程序执行运行

hive适用于离线查询，因为查询时间较长

Hbase是为查询而生的

hbase是hadoop的数据库，是一个费关系型数据库，非常适合用来进行大数据的实时查询

3、mapreduce作业，不让reduce输出，用什么代替reduce的功能。

hive如何调优

hive最终都会转化为mapreduce的job来运行，要想hive调优，实际上就是mapreduce调优，可以有下面几个方面的调优。解决收据倾斜问题，减少job数量，设置合理的map和reduce个数，对小文件进行合并，优化时把握整体，单个task最优不如整体最优。按照一定规则分区。

4、hadoop-env.sh是用于做什么的？

hadoop-env.sh提供了Hadoop中. JAVA_HOME的运行环境。

5、是否可以自行搭建Hadoop集群？

是的，只要对Hadoop环境足够熟悉，你完全可以这么做。

6、介绍一下hbase

hbase典型的key/value 系统，建立在hdfs之上，提供高可靠性，高性能，列存储，可伸缩，实时读写nosql的数据库系统。

主要用于海量结构化和半结构化数据存储

hbase查询数据功能很简单，不支持复杂操作，不支持复杂的事务

hbase主要依靠横向扩展

7、如何访问hbase中的行

1、通过单个rowkey访问

2、通过rowkey的范围

3、全表扫描

8、hbase如何调优

1、垃圾回收调优

2、优化region拆分合并以及拆分region

3、客户端入库调优

4、 Hbase配置文件

9、hive内部表和外部表的区别

Hive 向内部表导入数据时，会将数据移动到数据仓库指向的路径；若是外部表，数据的具体存放目录由用户建表时指定

在删除表的时候，内部表的元数据和数据会被一起删除，

而外部表只删除元数据，不删除数据。

这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

10、用mapreduce实现sql语 select count (x) from a group by b;

搭建hadoop集群， master和slaves都运行哪些服务

master主要是运行我们的主节点，slaves主要是运行我们的从节点。

1、如何知道消费者消费到哪一条消息了？

2、hbase和hive的区别

3、mapreduce作业，不让reduce输出，用什么代替reduce的功能。

4、hadoop-env.sh是用于做什么的？

5、是否可以自行搭建Hadoop集群？

6、介绍一下hbase

7、如何访问hbase中的行

8、hbase如何调优

9、hive内部表和外部表的区别

10、用mapreduce实现sql语 select count (x) from a group by b;

11、什么是队列

12、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

13、如何解决spark数据倾斜

14、Hadoop性能调优？

15、如何确定hadoop集群的健康状态

16、三个datanode中当有一个datanode出现错误时会怎样？

17、hive能像关系型数据库那样创建多个库吗

18、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

19、pig , latin , hive语法有什么不同

20、Kafka怎么保证消息不丢失机制

21、hdfs的体系结构

22、mapreduce的原理

23、HBase的特点是什么？

24、hive有哪些保存元数据的方式，各有什么特点

25、创建topic：

26、combiner出现在哪个过程

27、HDFS写文件的步骤：

28、hdfs-site.xml的3个主要属性？

29、简述hive中的虚拟列的作用？使用它注意事项

30、用mapreduce怎么处理数据倾斜问题

31、怎么保证Kafka集群的负载均衡？

32、那当下又该如何配置？

11、什么是队列 ​

12、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。 ​

13、如何解决spark数据倾斜 ​

14、Hadoop性能调优？ ​

15、如何确定hadoop集群的健康状态 ​

16、三个datanode中当有一个datanode出现错误时会怎样？ ​

17、hive能像关系型数据库那样创建多个库吗 ​

18、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。 ​

19、pig , latin , hive语法有什么不同 ​

20、Kafka怎么保证消息不丢失机制 ​

21、hdfs的体系结构 ​

22、mapreduce的原理 ​

23、HBase的特点是什么？ ​

24、hive有哪些保存元数据的方式，各有什么特点 ​

25、创建topic： ​

26、combiner出现在哪个过程 ​

27、HDFS写文件的步骤： ​

28、hdfs-site.xml的3个主要属性？ ​

29、简述hive中的虚拟列的作用？使用它注意事项 ​

30、用mapreduce怎么处理数据倾斜问题 ​

31、怎么保证Kafka集群的负载均衡？ ​

32、那当下又该如何配置？ ​