当前位置: 首页 > hadoop
  • cloudera manager 忘记密码的解决办法

    [摘要] 几年前一位开发同学使用 cloudera manager 安装的一个只有四个节点的mini hadoop集群,昨天namenode突然挂掉了,折腾起来后发现各服务都不正常,机器已经几年没人登录过,histroy命令也没有发现任何启动集群的命令。通过查看进程发现有个cloudera后台,由于开发人员早已离职,没有用户名和密码,真是满脑子的mmp.

    阅读全文
    作者:Fisher | 分类:NOSQL, 数据库 | 标签:, ,
  • hadoop security No groups available

    【摘要】Hadoop NameNode 日志疯狂滚动,每天80G以上,日志中全是类似WARN org.apache.hadoop.security.UserGroupInformation: No groups available for user xxx的报错,说明一下,任务是通过hive提交的。

    阅读全文
    作者:Fisher | 分类:other | 标签:
  • Hadoop-2.2.0源码编译,搭建与配置

    【摘要】之前一直使用Hadoop1.x的版本,计划升级到2.x,找了3台测试vm机器,搭建了一下,本以为非常简单,但由于Hadoop2.x版本与Hadoop1.x版本变化较大,还是费了一些周折,下面是一些详细的步骤。本例的步骤应该可以跑起来,Hadoop参数还需要一些具体的优化。

    阅读全文
    作者:Fisher | 分类:云计算, 分布式 | 标签:
  • Apache Spark(火花)成为ASF的顶级项目

    Apache软件基金会(ASF)高兴地宣布Apache spark(火花)已经从Apache孵化器毕业成为一个顶级项目(TLP),这标志着Spark项目的成功和稳定。Apache spark是一个开源的集群计算框架,为快速和灵活进行大规模数据分析而创立。Spark的出现引发了人们关于大数据的讨论,可以预测2014年将注定是Spark年。

    阅读全文
    作者:Fisher | 分类:cassandra, 云计算 | 标签:,
  • 关于Hadoop里面“批处理,实时,交互,流,NOSQL”等术语的解释

    很多人会对Hadoop里面使用的一些专业术语而感到困惑,如Hadoop的术语,流输入(streaming),实时(real time)等等,这里会对这些术语简单介绍一下:

    批处理(Batch)
    批处理是指按照预定的方式运行数据查询。你应该已经知道问题是什么,可以用一个MapReduce的程序来处理数据,假设你的数据量非常大,并且再不断增长中,这样哪怕是最简单的查询也至少需要分钟,这些都是你要考虑的问题。

    阅读全文
    作者:Fisher | 分类:NOSQL, 云计算 | 标签:
  • 为什么在Hadoop(HDFS)中块设置的很大?

    相对于普通磁盘的块(4kb)来说HDFS的块要更大一些256M甚至更大(默认64M),如此设计的目的是为了减少在寻道上的开销。 如果把HDFS块设置的足够大,那么从磁盘传输数据的时间将明显大于检索块头部信息的时间,因此HDFS中大文件传输的时间由多个块在磁盘上的传输速率来决定。

    阅读全文
    作者:Fisher | 分类:分布式 | 标签:, ,
  • 英特尔将建立大数据的操作系统

    随着各大企业对数据安全和可靠性重视程度的不断加强,Intel公司计划在以Hadoop大数据处理框架的基础上搭建一系列的软件工具,一套大数据的“操作系统”。

    这套数据平台工具将在下个季度以个人免费和企业自助版本的方式上线,同时还提供了附加版本,具有主动安全修复,定期升级及在线支持的新特性。

    阅读全文
    作者:Fisher | 分类:IT厂商 | 标签: