Cum să descărcați și să instalați Apache Kafka [Windows and Linux]

Apache Kafka reprezintă un sistem de mesagerie ce permite diverselor aplicații dintr-un mediu distribuit să comunice eficient și să schimbe date prin intermediul mesajelor.

Acesta funcționează ca un mecanism de publicare/abonare, unde aplicațiile producătoare trimit mesaje, iar sistemele consumatoare se abonează la acestea pentru a le recepționa.

Prin utilizarea Apache Kafka, se poate obține o arhitectură cu cuplare redusă între componentele sistemului care generează și prelucrează date, facilitând astfel proiectarea și administrarea sistemului. Kafka se bazează pe Zookeeper pentru a gestiona metadatele și a sincroniza diferitele elemente ale clusterului.

Caracteristici cheie ale Apache Kafka

Apache Kafka a câștigat popularitate datorită unor caracteristici importante, printre care:

  • Scalabilitate: Poate fi extins prin utilizarea clusterelor și a partițiilor.
  • Viteză: Este capabil să proceseze până la 2 milioane de scrieri pe secundă.
  • Menținerea ordinii: Asigură ordinea în care mesajele sunt transmise.
  • Fiabilitate: Oferă un sistem de replici pentru a garanta disponibilitatea datelor.
  • Actualizări: Permite actualizări fără a necesita perioade de indisponibilitate.

În continuare, vom explora câteva dintre aplicațiile uzuale ale lui Kafka.

Aplicații frecvente ale Apache Kafka

Kafka este adesea utilizat în procesarea unor cantități mari de date, înregistrarea și agregarea evenimentelor, cum ar fi click-urile pe butoane pentru analiză, dar și pentru centralizarea jurnalelor din diferite părți ale unui sistem.

De asemenea, facilitează comunicarea între diverse aplicații din cadrul unui sistem și permite prelucrarea în timp real a datelor provenite de la dispozitivele IoT.

În cele ce urmează, vom analiza pașii detaliați pentru instalarea Kafka pe sistemele Windows și Linux.

Instalarea Kafka pe Windows

Pentru început, trebuie să verificăm dacă Java este instalat pe sistemul Windows. Deschideți linia de comandă ca administrator și introduceți următoarea comandă:

java --version

În cazul în care Java este instalat, veți vedea numărul versiunii JDK curente.

Dacă primiți un mesaj de eroare care indică faptul că comanda nu este recunoscută, Java nu este instalat și trebuie să îl instalați. Pentru a face acest lucru, accesați Adoptium.net și dați click pe butonul de descărcare.

Se va descărca fișierul de instalare Java. După finalizarea descărcării, executați programul de instalare, care va afișa interfața de instalare.

Apăsați „Next” în mod repetat pentru a accepta opțiunile implicite. Instalarea va începe. Verificați instalarea închizând linia de comandă și deschizând una nouă ca administrator, apoi introduceți comanda:

java --version

De această dată, ar trebui să vedeți versiunea JDK pe care ați instalat-o. După instalarea Java, putem începe instalarea Kafka.

Pentru a instala Kafka, accesați site-ul web oficial Kafka.

Click pe link-ul de descărcare și veți fi direcționat către pagina de descărcări. Descărcați cele mai recente binare disponibile.

Aceasta va descărca scripturile Kafka și binarele arhivate într-un fișier .tgz. După descărcare, extrageți fișierele din arhiva .tgz. Se poate utiliza WinZip, care poate fi descărcat de pe site-ul său.

După extragerea fișierelor, mutați folderul în C: astfel încât calea să devină C:kafka.

Deschideți linia de comandă ca administrator și porniți Zookeeper navigând mai întâi în directorul Kafka. Executați fișierul zookeeper-server-start.bat, utilizând fișierul de configurare zookeeper.properties:

cd C:kafka
binwindowszookeeper-server-start.bat configzookeeper.properties

Odată ce Zookeeper este activ, trebuie să adăugăm fișierul executabil wmic, pe care Kafka îl utilizează, în variabila de sistem PATH:

set PATH=C:WindowsSystem32wbem;%PATH%;

Apoi, porniți serverul Apache Kafka deschizând o altă sesiune de linie de comandă ca administrator și navigând la directorul C:kafka:

cd C:kafka

Lansați Kafka executând:

binwindowskafka-server-start.bat configserver.properties

Acum, Kafka ar trebui să fie operațional. Puteți personaliza proprietățile serverului, cum ar fi locația unde sunt stocate jurnalele, în fișierul server.properties.

Instalarea Kafka pe Linux

Pentru început, actualizați sistemul, instalând cele mai recente pachete:

sudo apt update && sudo apt upgrade

Verificați dacă Java este instalat, executând comanda:

java --version

Dacă Java este instalat, veți vedea numărul versiunii. În caz contrar, îl puteți instala utilizând apt:

sudo apt install default-jdk

După aceasta, putem instala Apache Kafka descărcând binarele de pe site.

Deschideți terminalul și navigați la directorul unde a fost salvată descărcarea. În acest caz, trebuie să navigați în directorul Descărcări:

cd Downloads

Odată ajuns în directorul de descărcări, extrageți fișierele folosind tar:

tar -xvzf kafka_2.13-3.3.1.tgz

Navigați la folderul extras:

cd kafka_2.13-3.3.1

Listati directoarele și fișierele.

Odată ajuns în folder, porniți serverul Zookeeper executând scriptul zookeeper-server-start.sh, aflat în directorul bin al folderului extras. Scriptul necesită un fișier de configurare Zookeeper. Cel implicit se numește zookeeper.properties și se găsește în subdirectorul config.

Pentru a porni serverul, utilizați comanda:

bin/zookeeper-server-start.sh config/zookeeper.properties

Odată cu Zookeeper activ, putem porni serverul Apache Kafka. Scriptul kafka-server-start.sh se află tot în directorul bin. Această comandă necesită, de asemenea, un fișier de configurare. Cel implicit este server.properties, stocat în folderul de configurare.

bin/kafka-server-start.sh config/server.properties

În acest moment, Apache Kafka ar trebui să fie funcțional. În directorul bin, veți găsi numeroase scripturi pentru a realiza acțiuni precum crearea de topic-uri, administrarea producătorilor și a consumatorilor. Puteți personaliza proprietățile serverului în fișierul server.properties.

Concluzie

Acest ghid a prezentat pașii de instalare pentru Java și Apache Kafka. Deși puteți instala și gestiona clusterele Kafka manual, există și opțiuni gestionate, cum ar fi Amazon Web Services și Confluent.

Ulterior, se poate studia procesarea datelor cu Kafka și Spark.