1、如何知道消费者消费到哪一条消息了?
Kafka本地文件
Zookeeper当中的节点数据记录
offset偏移量,就是记录我们消费到那一条记录
offset
2、hbase和hive的区别
1、 hive是为了简化mr程序而生的,
hive是基于hadoop的一个数据仓库工具,可以将结构化工具映射成一张表数据库,并提供sql查询功能,可以将sql语句转化为mr程序执行运行
hive适用于离线查询,因为查询时间较长
Hbase是为查询而生的
hbase是hadoop的数据库,是一个费关系型数据库,非常适合用来进行大数据的实时查询
3、mapreduce作业,不让reduce输出,用什么代替reduce的功能。
hive如何调优
hive最终都会转化为mapreduce的job来运行,要想hive调优,实际上就是mapreduce调优,可以有下面几个方面的调优。解决收据倾斜问题,减少job数量,设置合理的map和reduce个数,对小文件进行合并,优化时把握整体,单个task最优不如整体最优。按照一定规则分区。
4、hadoop-env.sh是用于做什么的?
hadoop-env.sh提供了Hadoop中. JAVA_HOME的运行环境。
5、是否可以自行搭建Hadoop集群?
是的,只要对Hadoop环境足够熟悉,你完全可以这么做。
6、介绍一下hbase
hbase典型的key/value 系统,建立在hdfs之上,提供高可靠性,高性能,列存储,可伸缩,实时读写nosql的数据库系统。
主要用于海量结构化和半结构化数据存储
hbase查询数据功能很简单,不支持复杂操作,不支持复杂的事务
hbase主要依靠横向扩展
7、如何访问hbase中的行
1、 通过单个rowkey访问
2、 通过rowkey的范围
3、 全表扫描
8、hbase如何调优
1、 垃圾回收调优
2、 优化region拆分合并以及拆分region
3、 客户端入库调优
4、 Hbase配置文件
9、hive内部表和外部表的区别
Hive 向内部表导入数据时,会将数据移动到数据仓库指向的路径;若是外部表,数据的具体存放目录由用户建表时指定
在删除表的时候,内部表的元数据和数据会被一起删除,
而外部表只删除元数据,不删除数据。
这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
10、用mapreduce实现sql语 select count (x) from a group by b;
搭建hadoop集群 , master和slaves都运行哪些服务
master主要是运行我们的主节点,slaves主要是运行我们的从节点。