Kafka多线程消费多个topic案例 2017-05-29 初次使用 前段时间项目中使用了kafka作为消息队列,对大数据量的日志文件进行处理,保存存储MySQL和文件写入。具体参考kafka 消费者代码示例 分析 由于最近项目的需要,重新对kafka进行的研究,可能由于是第二次学习,对kafka有了一个更深的了解,比起第一次来说了也有了更多的感悟。其中最重要的就是对kafka分区数和消费者数目的对应关系有了更深的了解。经过再次的学习,我发现上面blog中的kafka使用方式其实并不完美,因为上面的例子在对kafka topic进行数据消费的时候采用的是单线程消费的。这个在一定程度上就会有问题,真正的生产环境下,数据量是非常大的,而且单个topic是有一定量的分区数的,具体的分区数需要看kafka是如何配置的,关于kafka具体分区数的配置请参考如何确定Kafka的分区数、key和consumer线程数、以及不消费问题解决。 kafka的分区有一个特性,就是每个分区只能被一个线程消费但是反过来不成立,也就是说每个线程可以消费多个分区的数据。kafka只能保证每个分区消费是顺序的,单多个分区之间并不保证顺序。 通过上面的说明,在真正消费的时候我们....
Spark初体验Word Count 2017-05-24 Spark初体验 最近老大突发奇想,准备让我们自己搭建spark集群来处理数据,既然有需求就有学习的动力。带着激动的心情最近看起了spark的学习文档。在虚拟机上装了spark,使用java代码跑了一个Word Count例子,用来学习。 Work Count maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.2.0</version> </dependency> </dependencies> java代码 public class WordCount { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.set.....
心累源于没有好的设计 2017-05-18 一个项目如果没有好的设计,写再多的代码都是徒劳。 一个好的设计往往会事半功倍,这就要求我们在实际进行编码的时候就需要考虑清楚,不要一味的追求速度,不经过思考写出来的代码往往做的都是无用功。那么怎么样才能写出具有很好设计风格的代码呢? 这个问题就太大了。。。 对于目前的我们来说只有不断地尝试,不断地出错,不断地的聆听前辈的指导,才能慢慢的有所领悟。
网易云跟帖配置以及github.io博客配置域名 2017-05-10 背景 截止到此文截稿日期,以前的评论插件"多说"很快就要关闭了,那么几个很严重的问题就来了,以后用什么评论系统呢?以前的那些评论数据怎么办呢?带着这两个问题此文诞生了。。。 评论插件 除了上面提到的"多说"之外,国内外还有很多评论插件,例如国外的disqus,国内有畅言和网易云跟帖等等吧,没仔细研究过。Disqus因为是国外的,一般不太好用(你懂得,有一道墙)。这里就选择了网易云跟帖,至于畅言以后有机会再使用吧。 配置网易云跟帖 1、 在网易云跟帖官网注册账号,进入后台管理,在基本信息以及站长信息里面配置基本信息。 这里有个小问题需要注意,在站点网址里面需要输入你的站点地址。但是如果用的是github pages搭建的站点的话,这里输入https://xxx.github.io/ 是不行的。所以博主采用的方案就是。。。购买一个域名。在阿里云的万网里面购买了一个域名,填入这里。 2、 输入完站点网址后,点击获取代码,选择通用代码,复制,根据不同站点搭建方式进行接入。在帮助文档中有相关文档。 简单的几个步骤就将云跟帖嵌入到站点里面了。在后台管理支持将以前多说的数据进行导入。至此,上面两个问....