微信搜索superit|邀请体验:大数据, 数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

 分类:大数据

20个spark实战项目列表,百度搜

这篇介绍是我看到过最详尽的,讲到很多Spark基本原理和对比Hadoop的优势,推荐必读。 1、【使用 SparkSQL 分析纽约市犯罪数据】 2、【Kmeans聚类算法评估足球比赛】 3、【使用决策树算法预测森林植被】 4、【Spark 机器学习之电影推荐系统】 5、【使用 ...

1天前 2℃ 0评论

kafka单条日志超过1M解决方案

一、说明 kafka默认会丢弃超过单调日志超过1M的记录。如果单条日志超出1M(压缩后),客户端会报出如下错误。 错误日志 Icon java.util.concurrent.ExecutionException: org.apache.kafka.common.errors...

3周前 (11-11) 1℃

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
flume,logstash 都是基于jvm的,都比较耗资源,而filebeat是基于go的,把logstash的核心拿出来了,但是没有执行格式化,只是在端上采集,,,, 之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: http://rk700.github....

3周前 (11-10) 3℃

kafka单独设置数据过期时间

kafka 单独设置某个topic的数据过期时间 kafka 默认存放7天的临时数据,如果遇到磁盘空间小,存放数据量大,可以设置缩短这个时间。 全局设置 修改 server.properties log.retention.hours=72 log.cleanup.policy=...

3周前 (11-09) 2℃

阿里Canal框架(数据同步中间件)初步实践-Java知音

阿里Canal框架(数据同步中间件)初步实践-Java知音
思维导图 本文章已收录到个人博客网站(我爱B站):me.lovebilibili.com 前言 我们都知道一个系统最重要的是数据,数据是保存在数据库里。但是很多时候不单止要保存在数据库中,还要同步保存到Elastic Search、HBase、Redis等等。 这时我注意到阿里...

4周前 (11-07) 2℃

用Python操作HBase之HBase-Thrift

  玉米丛里吃过亏 2018-01-14 12:30:56 26252 收藏 18 分类专栏: python hbase 文章标签: hbase thrift hbase-thrift python 版权 安装Thrift 安装Thrift的具体操作,请点击链接 htt...

1个月前 (11-03) 2℃

yarn编码获取application列表

1、 新建maven工程 https://blog.csdn.net/a794922102/article/details/86632625 https://blog.csdn.net/nma_123456/article/details/51692721 2、 编写代码 &nb...

1个月前 (10-28) 3℃

hive JDBC 进度和日志查看

hive JDBC 进度和日志查看 @(hive)[JDBC|进度|日志] hive的JDBC提供了java连接hiveserver2查询的能力,但是hive JDBC有别于关系型数据库,一个查询语句可能要在十几分钟到几十分钟才会返回结果,而hive JDBC...

1个月前 (10-28) 3℃

Hive设置连接用户名和密码

Hive设置连接用户名和密码
Hive设置连接用户名和密码,操作相关步骤如下: Hive-site.xml,缺省为NONE。此处改为CUSTOM https://blog.csdn.net/lr131425/article/details/72628001 <property> <n...

1个月前 (10-27) 2℃

hive优化常用手段

hive优化常用手段 1、好的模型设计事半功倍 2、解决数据倾斜问题 3、减少 job 数 4、设置合理的 MapReduce 的 task 数,能有效提升性能。(比如,10w+级别的计算,用 160个 reduce,那是相当的浪费,1 个足够) 5、了解数据分布,自己动手解决数...

1个月前 (10-26) 3℃

SQOOP 导出Hive数据到MySQL

SQOOP 导出Hive数据到MySQL
基本知识: Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4  的10. sqoop-export 内容摘要: 本文主要是对–update-mode参数的用法进...

1个月前 (10-26) 2℃

Hive学习之路 (十二)Hive SQL练习之影评案例

目录 案例说明 数据下载 解析 1、正确建表,导入数据(三张表,三份数据),并验证是否正确 2、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) 3、分别求男性,女性当中评分最高的10部电影(性别,电影名,影评分) 4、求movieid = 2116这部...

1个月前 (10-26) 2℃

Spark项目实战

Spark项目之电商用户行为分析大数据平台之(十二)Spark上下文构建及模拟数据生成 摘要:一、模拟生成数据 1 package com.bw.test; 2 3 import java.util.ArrayList; 4 import java.util.Arrays; ...

1个月前 (10-26) 2℃

Hive学习之路 (十二)Hive SQL练习之影评案例

Hive学习之路 (十二)Hive SQL练习之影评案例
Hive学习之路 (十二)Hive SQL练习之影评案例 讨论QQ:1586558083 目录 案例说明 数据下载 解析 1、正确建表,导入数据(三张表,三份数据),并验证是否正确 2、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) 3、分别求男性...

1个月前 (10-26) 2℃

SQOOP 导出-Hive和MySQL数据导入导出

SQOOP 导出-Hive和MySQL数据导入导出
基本知识: Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4  的10. sqoop-export   一、sqoop导出hive表到mysql中: 实现语句: ...

1个月前 (10-26) 2℃

Sqoop学习之路 (一)

Sqoop学习之路 (一)
Sqoop学习之路 (一) 讨论QQ:1586558083 目录 一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把My...

1个月前 (10-26) 2℃

Sqoop 之 数据迁移

Sqoop 之 数据迁移
文章目录 1.RDBMS到HDFS 1.1全部导入 1.2导入指定列 –columns 1.3导入指定行–where 1.4查询导入 1.5增量导入数据 1.6导入文件格式 2.RDBMS到Hive 3.RDBMS到Hbase 4.HIVE/H...

1个月前 (10-26) 1℃

使用Sqoop导Mysql数据到Hbase报错

报错日志 20/04/14 16:40:45 WARN mapreduce.HBaseImportJob: Could not find HBase table hbase_company 20/04/14 16:40:45 WARN mapreduce.HBaseImpo...

1个月前 (10-26) 1℃

安装CDH&CM

(推荐)https://www.xiaokunli.com/2019/03/25/CM-CDH6.1.0%E5%AE%89%E8%A3%85%E8%BF%87%E7%A8%8B%E8%AF%A6%E8%A7%A3/ (推荐)https://blog.csdn.net/weixin...

2个月前 (10-13) 4℃

运行Spark官方提供的例子

运行Spark官方提供的例子
去spark官网把spark下载下来: https://spark.apache.org/downloads.html   解压,可以看下目录: 其中examples目录下提供了java,scala,python,R语言的各种例子。点进src目录可以看到源代码,如:...

2个月前 (10-12) 2℃

hbase默认端口

hbase默认端口
hbase.rootdir:这个目录是region  server的共享目录,用来持久化Hbase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的 ‘/hbase’目录,namenode  运行...

2个月前 (09-25) 2℃

logstash中文文档以及input,filter,output解析

发现一个很好很好的中文文档 传送门 致敬作者 致敬大佬   input{ file{ #注意文件路径名需要绝对路径 path => "E:/nginx/logs/error.log" #如果想要监听多个...

3个月前 (09-01) 2℃

Elasticsearch修改字段类型

1.设置索引t2为想要的数据类型 2.将t1 reindex到t2 3.数据reindex完成删除t1 4.设置索引t1为想要的数据类型 5.将t2 reindex到t1 PUT t1 { "settings": { "index": { "...

3个月前 (09-01) 2℃