This project is a companion repository to the Apache Kafka Connect course on Udemy.
https://links.datacumulus.com/kafka-connect-coupon
This connector allows you to get a stream of issues and pull requests from your GitHub repository, using the GitHub Api: https://developer.github.com/v3/issues/#list-issues-for-a-repository
Issues are pulled based on updated_at
field, meaning any update to an issue or pull request will appear in the stream.
The connector writes to topic that is great candidate to demonstrate log compaction. It's also a fun way to automate your GitHub workflow.
It's finally aimed to be an educative example to demonstrate how to write a Source Connector a little less trivial than the FileStreamSourceConnector
provided in Kafka.
This connector is not perfect and can be improved, please feel free to submit any PR you deem useful.
name=GitHubSourceConnectorDemo
tasks.max=1
connector.class=com.simplesteph.kafka.GitHubSourceConnector
topic=github-issues
github.owner=kubernetes
github.repo=kubernetes
since.timestamp=2017-01-01T00:00:00Z
# I heavily recommend you set those two fields:
auth.username=your_username
auth.password=your_password
Note: Java 8 is required for this connector.Make sure config/worker.properties
is configured to wherever your kafka cluster is
./build.sh
./run.sh
The simplest way to run run.sh
is to have docker installed. It will pull a Dockerfile and run the connector in standalone mode above it.
Note: Java 8 is required for this connector.
TODO
写在前面 写博客时使用的版本 Confluent Platform v3.2.1。使用的话,大家看官方文档kafka-connect,下面有几个使用过程中遇到的问题: 我的kafka里的数据是avro格式的,应需求要从kafka导入mysql数据库和从HDFS导入到kafka。 standalone模式启动命令: //后面可以接多个配置文件,执行多个任务 ./connect-standalone
简介 一、概念 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 主要应用场景是: 日志收集系统和消息系统。 特点: 解耦:各位系统之间通过消息系统这个
目录 1. 概述 2. 下载并构建 kafka-connect-datagen 3. 启动kafka connect datagen 3.1 启动 datagen 3.2 创建一个产生数据的任务<
connect connect_overview Kafka Connect is a tool for scalably and reliably streaming data between Apache Kafka and other systems. It makes it simple to quickly define connectors that move large collec
我想连接到我的组织的身份提供者,但它是失败的。为了测试键盘斗篷和其他身份提供者之间的连接,我使用了Github,并使用Github的默认键盘斗篷模板将其与键盘斗篷连接,它起作用了。 现在,我正在尝试使用通用的“OpenID connect v1.0”配置将Github与Keyclock连接起来,以检查它是否能对我有所帮助,但我没有成功。我被重定向到Github登录页面并登录,但当被重定向回Keyc
我需要从Kafka主题获取消息并通过基于HTTP的API通知其他系统。也就是说,从主题获取消息,映射到第三方API并调用它们。我打算为此编写一个Kafka Sink连接器。 对于这个用例,Kafka Connect是正确的选择还是我应该使用Kafka客户端。
Below is the configuration of the Kafka Connect framework. Name Description Type Default Valid Values Importance config.storage.topic The name of the Kafka topic where connector configurations are sto
我正在努力让Confluent的kafka连接器连接到DB2。 我正在 docker 中运行一个 ubuntu 实例来测试普鲁波斯。该解决方案需要部署到 kubernetes,所以 docker 就是这样。 我已经使用apt-get安装了ConFluent平台并添加了他们的repos。所有服务都在运行,kafka,zoo的,模式和kafkaRest。 我已经创建了我的kafka连接属性文件,如本文
问题内容: 我希望从Kafka消费数据并将数据保存到Hadoop和Elasticsearch中。我目前已经看到了两种方法:使用Filebeat从Kafka消费并将其发送到ES,以及使用Kafka- Connect框架。有一个Kafka-Connect-HDFS和Kafka-Connect-Elasticsearch模块。 我不确定要使用哪个发送流数据。尽管我认为如果我想在某个时候从Kafka中获取