当前位置: 首页 > 软件库 > 云计算 > 云原生 >

kafka-connect-github-source

授权协议 MIT License
开发语言 Java
所属分类 云计算、 云原生
软件类型 开源软件
地区 不详
投 递 者 衡建中
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Learning

This project is a companion repository to the Apache Kafka Connect course on Udemy.

https://links.datacumulus.com/kafka-connect-coupon

Kafka Connect Source GitHub

This connector allows you to get a stream of issues and pull requests from your GitHub repository, using the GitHub Api: https://developer.github.com/v3/issues/#list-issues-for-a-repository

Issues are pulled based on updated_at field, meaning any update to an issue or pull request will appear in the stream.

The connector writes to topic that is great candidate to demonstrate log compaction. It's also a fun way to automate your GitHub workflow.

It's finally aimed to be an educative example to demonstrate how to write a Source Connector a little less trivial than the FileStreamSourceConnector provided in Kafka.

Contributing

This connector is not perfect and can be improved, please feel free to submit any PR you deem useful.

Configuration

name=GitHubSourceConnectorDemo
tasks.max=1
connector.class=com.simplesteph.kafka.GitHubSourceConnector
topic=github-issues
github.owner=kubernetes
github.repo=kubernetes
since.timestamp=2017-01-01T00:00:00Z
# I heavily recommend you set those two fields:
auth.username=your_username
auth.password=your_password

Running in development

Note: Java 8 is required for this connector.Make sure config/worker.properties is configured to wherever your kafka cluster is

./build.sh
./run.sh 

The simplest way to run run.sh is to have docker installed. It will pull a Dockerfile and run the connector in standalone mode above it.

Deploying

Note: Java 8 is required for this connector.

TODO

  • 写在前面 写博客时使用的版本 Confluent Platform v3.2.1。使用的话,大家看官方文档kafka-connect,下面有几个使用过程中遇到的问题: 我的kafka里的数据是avro格式的,应需求要从kafka导入mysql数据库和从HDFS导入到kafka。 standalone模式启动命令: //后面可以接多个配置文件,执行多个任务 ./connect-standalone

  • 简介 一、概念 ​    Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 主要应用场景是: 日志收集系统和消息系统。 特点: 解耦:各位系统之间通过消息系统这个

  • 目录 1. 概述 2. 下载并构建 kafka-connect-datagen 3. 启动kafka connect datagen 3.1 启动 datagen 3.2 创建一个产生数据的任务<

 相关资料
  • connect connect_overview Kafka Connect is a tool for scalably and reliably streaming data between Apache Kafka and other systems. It makes it simple to quickly define connectors that move large collec

  • 我想连接到我的组织的身份提供者,但它是失败的。为了测试键盘斗篷和其他身份提供者之间的连接,我使用了Github,并使用Github的默认键盘斗篷模板将其与键盘斗篷连接,它起作用了。 现在,我正在尝试使用通用的“OpenID connect v1.0”配置将Github与Keyclock连接起来,以检查它是否能对我有所帮助,但我没有成功。我被重定向到Github登录页面并登录,但当被重定向回Keyc

  • 我需要从Kafka主题获取消息并通过基于HTTP的API通知其他系统。也就是说,从主题获取消息,映射到第三方API并调用它们。我打算为此编写一个Kafka Sink连接器。 对于这个用例,Kafka Connect是正确的选择还是我应该使用Kafka客户端。

  • Below is the configuration of the Kafka Connect framework. Name Description Type Default Valid Values Importance config.storage.topic The name of the Kafka topic where connector configurations are sto

  • 我正在努力让Confluent的kafka连接器连接到DB2。 我正在 docker 中运行一个 ubuntu 实例来测试普鲁波斯。该解决方案需要部署到 kubernetes,所以 docker 就是这样。 我已经使用apt-get安装了ConFluent平台并添加了他们的repos。所有服务都在运行,kafka,zoo的,模式和kafkaRest。 我已经创建了我的kafka连接属性文件,如本文

  • 问题内容: 我希望从Kafka消费数据并将数据保存到Hadoop和Elasticsearch中。我目前已经看到了两种方法:使用Filebeat从Kafka消费并将其发送到ES,以及使用Kafka- Connect框架。有一个Kafka-Connect-HDFS和Kafka-Connect-Elasticsearch模块。 我不确定要使用哪个发送流数据。尽管我认为如果我想在某个时候从Kafka中获取