Cum se vizualizează date complexe pe Linux

Probabil ați auzit de Elasticsearch - motorul de căutare care vă permite să indexați și apoi să căutați rapid în datele dvs. Este posibil să fi creat câteva vizualizări în Kibana, GUI pentru Elasticsearch, arătând și făcând clic prin interfața elegantă.

Ceea ce poate nu ați folosit este un plugin de vizualizare mai puțin cunoscut numit Timelion.

Timelion este un instrument fantastic de creare a vizualizării care face posibilă scrierea interogărilor dvs. în limbajul său de expresie simplu și puternic pentru a afișa grafice. Este utilizat pentru afișarea datelor din seriile cronologice, cum ar fi creșterea populației sau accesări pe site-ul dvs. web.

Iată o listă cu cele mai bune laptopuri pentru dezvoltatori
Verificați cele mai bune distribuții pentru dezvoltatori
Crunch numere cu ușurință pe aceste cele mai bune stații de lucru

Despre acest articol

Acest articol a apărut pentru prima dată în revista Linux Format, numărul # 269, publicat în noiembrie 2022-2023.

Cu Timelion, putem calcula mediile mobile, afișa diferența dintre datele săptămânii trecute și astăzi și putem face o detecție de bază a anomaliilor. Este un instrument util pentru a ști cum să lucrezi. Să începem.

Instalare

Dacă sunteți un cititor obișnuit de format Linux, există exemple de docker compuse pentru configurarea unui cluster în LXF261.

În caz contrar, instalarea Elasticsearch și Kibana este relativ simplă. Singura cerință este Java, pe care este posibil să îl aveți deja instalat.

Dacă nu un simplu sudo apt install default-jre îl instalează pe distribuții bazate pe Debian sau un sudo dnf install java ar trebui să facă același lucru pentru familia de distribuții Red Hat.

Apoi, trebuie doar să descărcați cea mai recentă versiune de Elasticsearch și Kibana pentru aroma dorită a sistemului de operare.

La momentul scrierii, ultima versiune este kibana-7.8.1-linux-x86_64.tar.gz.

Îl puteți extrage cu tar -xvzf kibana-7.8.1-linux-x86_64.tar.gz, schimbați-l în directorul extras și rulați ./bin/kibana & pentru a declanșa instanța Kibana.

Când ați făcut exact aceiași pași pentru a configura Elasticsearch, înlocuind „kibana” pentru „elasticsearch”, ar trebui să puteți naviga la http: // localhost: 5601 în browserul dvs. preferat și să vedeți o nouă interfață Kibana strălucitoare pentru a juca în jur cu.

Dacă preferați să instalați pachete cu un manager de pachete, același link ca înainte conține informații despre adăugarea repozitiei Elastic în sistemul dvs. și instalarea pachetelor Kibana și Elasticsearch în acest fel.

Puteți suprapune grafice unul peste celălalt și puteți utiliza formatarea pentru a obține graficele care arată cel mai bine.

Obțineți niște date

Versiunile recente ale Kibana fac posibilă ingerarea seturilor de date în clusterul nostru automat cu Data Visualizer în loc să fie nevoie să creați un script sau o configurație Logstash. Se poate ocupa cu seturi de date în format JSON sau CSV, precum și cu unele fișiere jurnal standard, cum ar fi jurnalele Apache. Singura limitare este că au o dimensiune mai mică de 100 MB. Acest lucru este mai mult decât suficient pentru scopurile noastre.

Vom folosi setul de date Covid-19 din întreaga lume din Portalul de date deschise al UE. Am descărcat fișierul CSV din secțiunea Resurse a paginii.

Dacă aveți probleme, puteți alege să descărcați versiunea Excel .xlsx, deschideți-o cu LibreOffice Calc și salvați-o în format Text CSV (.csv). Există, de asemenea, o versiune JSON disponibilă pentru descărcare pe care o puteți folosi ca alternativă.

Pentru a ajunge la Data Visualizer în Kibana, faceți clic pe pictograma hamburger din stânga sus, apoi Machine Learning și, în final, Data Visualizer. Odată ajuns acolo, faceți clic pe Încărcare fișier în caseta Importare date, apoi Selectați sau glisați și fixați un fișier și alegeți fișierul CSV de ingerat

După o scurtă analiză, va afișa câteva statistici pe care le-a descoperit din primele 1.000 de linii ale fișierului CSV. Acesta va fi formatul în care crede că se află fiecare dintre câmpuri, cum ar fi textul, data sau numărul și evidențiați valorile de top găsite în câmpuri.

De obicei, ne descurcă o treabă bună. Dacă trebuia să efectuați orice ajustări, puteți face clic pe Anulați setările pentru a le modifica - de exemplu, numele câmpului așa cum va fi setat în Elasticsearch.

Un nume de câmp pe care ar trebui să îl anulăm este dataRep, care reprezintă data pentru cifra calculată din setul nostru de date. Timelion nu va ști cum să folosească acest lucru ca câmp de timp în mod prestabilit, așa că ne putem simplifica viața ulterior redenumind acest câmp acum la ceva pe care îl va recunoaște.

Un candidat bun este timestamp-ul. Faceți clic pe Aplicare pentru a seta acest lucru. Când sunteți mulțumit de modul în care arată restul, faceți clic pe Import în partea de jos, dați indexului un nume - am ales covid - și apoi faceți clic din nou pe Import pentru a obține datele în clusterul dvs.