分类：大数据

7 款开源的 ETL 工具

我们在下方列出了 7 款开源的 ETL 工具，并讨论了从 ETL 转向“无 ETL”的过程，因为 ELT 正迅速成为现代数据和云环境的终极过程。注：原文包含 11 项 ETL 工具，本文提取了其中开源的 7 项，另增加了一款使用普遍的 Kettle，如需对另外 4 项进行了解，...

3年前 (2022-03-02) 12℃

php正则解析nginx的access log

对于nginx的日志分析，awstats + jawstats 是一个很好的解决方案最近有个任务需要对接口的调用做二次分析统计，于是用php写了个正则解析日志，用Highcharts报表, nginx.conf 对log的默认格式是这样定义的 log_format ac...

4年前 (2021-05-25) 9℃

最简单的spark实例

hadoop-node web-ui: http://192.168.1.10:50070/ spark web-ui: http://192.168.1.10:8080/ spark的url: http://192.168.1.10:7077 1.创建一个scala项...

5年前 (2021-01-28) 14℃

20个spark实战项目列表,百度搜

这篇介绍是我看到过最详尽的，讲到很多Spark基本原理和对比Hadoop的优势，推荐必读。 1、【使用 SparkSQL 分析纽约市犯罪数据】 2、【Kmeans聚类算法评估足球比赛】 3、【使用决策树算法预测森林植被】 4、【Spark 机器学习之电影推荐系统...

5年前 (2020-12-29) 8℃

kafka 设置消费group为最新offset

import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.kafka.tools.OffsetManager import java.{uti...

5年前 (2020-12-29) 7℃

rsyslog 接入权限认证的Kafka集群

说明： kafka权限接入包含两种方式，了解具体接入可参考本案例使用kafka的第二种使用方式，案例如下： Icon SparkConf sparkConf = new SparkConf() .setAppName("JavaSparkStream...

5年前 (2020-12-29) 7℃

kafka单条日志超过1M解决方案

一、说明 kafka默认会丢弃超过单调日志超过1M的记录。如果单条日志超出1M（压缩后），客户端会报出如下错误。错误日志 Icon java.util.concurrent.ExecutionException: org.apache.kafka.commo...

5年前 (2020-12-29) 9℃

(强烈推荐)log+filebeat+kafka+logstash+es配置, filebeat连不上kafka原因解析!!!

# 通常架构 # filebeat=>kafka=>logstash=>elasticsearch=>kibana 1.filebeat的配置: # filebeat/config/filebeat.yml: ...

5年前 (2020-12-29) 6℃

logstash的各个场景应用（配置文件均已实践过）

场景： 1） datasource->logstash->elasticsearch->kibana 2） datasource->filebeat->logstash-> elasticsearch->kibana...

5年前 (2020-12-29) 5℃

日志实时收集之FileBeat+Kafka

flume,logstash 都是基于jvm的,都比较耗资源,而filebeat是基于go的,把logstash的核心拿出来了,但是没有执行格式化,只是在端上采集,,,, 之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的： http://rk700...

5年前 (2020-12-29) 5℃

kafka系列：设置日志数据保存过期时间（含某个topic）、日志策略

目录全局设置（h）某个Topic设置（ms）立刻删除（now）日志策略分段策略属性日志刷新策略日志保存清理策略参考全局设置（h） server.properties log.retention.hours=72 log...

5年前 (2020-12-29) 6℃

kafka单独设置数据过期时间

kafka 单独设置某个topic的数据过期时间 kafka 默认存放7天的临时数据，如果遇到磁盘空间小，存放数据量大，可以设置缩短这个时间。全局设置修改 server.properties log.retention.hours=72 log.cleanup...

5年前 (2020-12-29) 7℃

阿里Canal框架（数据同步中间件）初步实践-Java知音

思维导图本文章已收录到个人博客网站(我爱B站)：me.lovebilibili.com 前言我们都知道一个系统最重要的是数据，数据是保存在数据库里。但是很多时候不单止要保存在数据库中，还要同步保存到Elastic Search、HBase、Redis等等。这时我注意...

5年前 (2020-12-29) 7℃

yarn编码获取application列表

1、新建maven工程 https://blog.csdn.net/a794922102/article/details/86632625 https://blog.csdn.net/nma_123456/article/details/51692721 2、编写代码 &nb...

5年前 (2020-10-28) 10℃

hive JDBC 进度和日志查看

hive JDBC 进度和日志查看 @(hive)[JDBC|进度|日志] hive的JDBC提供了java连接hiveserver2查询的能力，但是hive JDBC有别于关系型数据库，一个查询语句可能要在十几分钟到几十分钟才会返回结果，而hive JDBC...

5年前 (2020-10-28) 10℃

Hadoop（HDFS、YARN、HBase、Hive和Spark等）默认端口表

Hadoop（HDFS、YARN、HBase、Hive和Spark等）默认端口表 2018-08-10阅读 2890 端口作用 9000 fs.defaultFS，如：hdfs://172.25.40.171:9...

5年前 (2020-10-28) 12℃

Hive设置连接用户名和密码

Hive设置连接用户名和密码，操作相关步骤如下： Hive-site.xml,缺省为NONE。此处改为CUSTOM https://blog.csdn.net/lr131425/article/details/72628001 <property> <n...

5年前 (2020-10-27) 35℃

Hive学习之路（十二）Hive SQL练习之影评案例

目录案例说明 https://www.cnblogs.com/qingyunzong/p/8727264.html 数据下载 https://files.cnblogs.com/files/qingyunzong/hive%E5%BD%B1%E8%AF%84%E6...

5年前 (2020-10-26) 12℃

hive优化常用手段

hive优化常用手段 1、好的模型设计事半功倍 2、解决数据倾斜问题 3、减少 job 数 4、设置合理的 MapReduce 的 task 数，能有效提升性能。(比如，10w+级别的计算，用 160个 reduce，那是相当的浪费，1 个足够) 5、了解数据分布，自己动手解决数...

5年前 (2020-10-26) 7℃

SQOOP 导出Hive数据到MySQL

基本知识： Sqoop导出的基本用法：https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4 的10. sqoop-export 内容摘要：本文主要是对–update-mode参数的用法进...

5年前 (2020-10-26) 8℃

Hive学习之路（十二）Hive SQL练习之影评案例

目录案例说明数据下载解析 1、正确建表，导入数据（三张表，三份数据），并验证是否正确 2、求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数） 3、分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分） 4、求movieid = 2116这部...

5年前 (2020-10-26) 8℃

Spark项目实战

Spark项目之电商用户行为分析大数据平台之（十二）Spark上下文构建及模拟数据生成摘要：一、模拟生成数据 1 package com.bw.test; 2 3 import java.util.ArrayList; 4 import java.util.Arrays; ...

5年前 (2020-10-26) 7℃

Hive学习之路（十二）Hive SQL练习之影评案例

Hive学习之路（十二）Hive SQL练习之影评案例讨论QQ：1586558083 目录案例说明数据下载解析 1、正确建表，导入数据（三张表，三份数据），并验证是否正确 2、求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数） 3、分别求男性...

5年前 (2020-10-26) 6℃

SQOOP 导出-Hive和MySQL数据导入导出

基本知识： Sqoop导出的基本用法：https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4 的10. sqoop-export 一、sqoop导出hive表到mysql中: 实现语句： ...

5年前 (2020-10-26) 7℃

Sqoop学习之路（一）

Sqoop学习之路（一）讨论QQ：1586558083 目录一、概述二、工作机制三、安装 1、前提概述 2、软件下载 3、安装步骤四、Sqoop的基本命令基本操作示例五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把My...

5年前 (2020-10-26) 9℃

Sqoop 之数据迁移

文章目录 1.RDBMS到HDFS 1.1全部导入 1.2导入指定列 –columns 1.3导入指定行–where 1.4查询导入 1.5增量导入数据 1.6导入文件格式 2.RDBMS到Hive 3.RDBMS到Hbase 4.HIVE/H...

5年前 (2020-10-26) 5℃

hbase出现org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误解决

使用hbase创建namespace和table时提示该错误，完整的错误日志如下：按照网上的解决思路： 1、设置主机之间的NTP时间同步。 2、修改hbase-site.xml配置文件 <property> <name>hbase.ro...

5年前 (2020-10-26) 6℃

使用Sqoop导Mysql数据到Hbase报错

报错日志 20/04/14 16:40:45 WARN mapreduce.HBaseImportJob: Could not find HBase table hbase_company 20/04/14 16:40:45 WARN mapreduce.HBaseImpo...

5年前 (2020-10-26) 4℃

安装CDH&CM

(推荐)https://www.xiaokunli.com/2019/03/25/CM-CDH6.1.0%E5%AE%89%E8%A3%85%E8%BF%87%E7%A8%8B%E8%AF%A6%E8%A7%A3/ (推荐)https://blog.csdn.net/weixin...

5年前 (2020-10-13) 10℃

运行Spark官方提供的例子

去spark官网把spark下载下来： https://spark.apache.org/downloads.html 解压，可以看下目录：其中examples目录下提供了java,scala,python,R语言的各种例子。点进src目录可以看到源代码，如：...

5年前 (2020-10-12) 6℃