Cum scoatem maximum de beneficii din date

Cum scoatem maximum de beneficii din date

Începem 2024 cu o dezbatere despre guvernanța datelor – o traducere mot à mot din englezescul Data Governance. Cred cu tărie că guvernanța datelor este esențială pentru dezvoltarea oricărei organizații, indiferent că vorbim despre o firmă mică, medie sau mare. Că vorbim despre unul, doi, trei angajați sau că vorbim despre mii de angajați, o guvernanță proastă a datelor va trimite firma direct în cimitirul fără de cruci al firmelor care puteau fi odată ceva.

Ce înseamnă guvernanța datelor?

Guvernanța datelor se referă la practicile, politicile și frameworkurile (da, la plural) pe care organizațiile le implementează pentru a gestiona, controla și asigura calitatea, consistența și securitatea activelor lor de date. Ea presupune un set de linii directoare sau reguli pentru gestionarea și utilizarea datelor într-o organizație, permițând respectarea reglementărilor legale și gestiunea eficientă a strategiilor de business. Guvernanța datelor cuprinde multiple elemente precum calitatea datelor, securitatea datelor, integrarea datelor în procesele de business și arhitectura datelor, printre altele.

O guvernanță eficientă a datelor implică o abordare structurată a gestionării datelor, care permite un proces decizional mai bun, eficiență operațională și respectarea cadrului legal în vigoare.

Cum a evoluat guvernanța datelor?

În țările care au cunoscut o evoluție mai accelerată a utilizării tehnologiei informatice, (a se citi țările care nu au trecut prin comunism) persoanele de decizie din diverse firme și instituții de stat s-au prins la un moment dat că sunt inundate de prea multe date. Vorbim de anii în care câțiva megabiți de date presupuneau utilizarea unor hard-diskuri mari sau a unui număr mare de dischete. Ani în care documentele erau scrise în Wordstar, VI sau Latex – salutări dinozaurilor din tehnologia informației- sau în care foile de calcul erau scrise în Lotus 1-2-3. Ani în care aplicațiile Foxpro dominau piața, iar mainframe-urile însemnau săli uriașe pline cu echipamente IBM, Digital sau Sun Microsystems. Dar destul cu nostalgia, să vedem cu ce problemă s-au lovit specialiștii în acei ani.

În primul rând, toată lumea (ca și acum) scria documente. E-mailuri, contracte, facturi, foi de calcul, prezentări. Însă informații produceau și aplicațiile care și pe atunci aveau loguri, criterii de acces, date de intrare și date de ieșire. Specialiștii au început să își pună întrebări: cine are acces la ce date? Când? În ce context? Cum știm cine a modificat un câmp într-un document? Cum știm cine a modificat parametrii dintr-o foaie de calcul? Este aceasta ultima versiune de lucru a unui document? Știm ce s-a trimis clientului? Întrebări simple, dar care într-o eră care încă nu cunoscuse atingerea fină a internetului presupuneau răspunsuri și analize complexe.

De aceea, la început, anumite organizații au ales să își implementeze intern forme rudimentare de management al informațiilor. Acestea variau de la directoare de documente draft, documente finale, documente cu feedback intern/ de la clienți/ de la parteneri etc. Tot atunci au apărut și logurile, să înțeleagă administratorii cam cine ce face. Însă lucrurile evoluau rapid, și iată că intrăm în epoca bazelor de date.

În anii ’70-’80 au apărut sistemele de gestiune a bazelor de date – DBMS, sisteme ce permiteau interogarea bazelor multidimensionale de date structurate folosind un limbaj cunoscut drept SQL – Structured Query Language. Astfel, puteai scoate din diverse baze de date tabele care să ilustreze anumite situații sau puteai updata alte tabele cu informații noi. Putem spune de fapt că primii pași STRUCTURAȚI în direcția guvernanței datelor au fost făcuți pe vremea DBMS-urilor.

Un alt pas major a fost democratizarea accesului la tehnologie – apariția calculatoarelor personale și uriașa lor popularizare, atât în mediul de business, cât și în zona consumatorilor casnici. La scurt timp a apărut și internetul și odată cu el, o cantitate uriașă de date care a început să fie schimbată între firme, persoane fizice, instituții și (ce surpriză) răufăcători. Cei din urmă au început să exploateze diversele vulnerabilități din sistemele informatice, lucru care a dus la apariția primelor legi de securitate a informației, precum și de protejare a datelor personale. Da, începând chiar cu anii ’80!

Obligația de conformare la noile legi de securitate și protecție a datelor a dus la apariția primelor politici și proceduri interne de gestiune a datelor. Această abordare structurată a permis mai buna organizare a datelor și a structurilor de date complexe, precum și analiza lor multi-dimensională – celebrul Business Intelligence, capabilitatea de a determina în timp real pe baza unor seturi de date, indicatori cheie pentru business. Ca exemple putem da aici evoluția stocurilor, previziuni privind stocurile și timpii de refacere a stocurilor în funcție de zilele anului, analiza livrărilor, a plăților, a profitabilității pe categorii etc.

La începutul anilor 2000 am avut celebrele scandaluri Enron și Worldcom din Statele Unite ale Americii, prin care cele două companii au mințit în raportările financiare pentru a crește artificial prețul acțiunilor. Falimentul celor doi giganți a dat o undă de șoc în întreaga economie americană, lucru ce a dus la apariția legii Sarbanes-Oxley (SOX), o lege care obligă anumite organizații, în special cele cu expunere mare, să aibă controale clare în ceea ce înseamnă calitatea rapoartelor financiare, CEO-ul și CFO-ul au răspundere personală pentru corectitudinea acestor rapoarte, auditorii financiari trebuie să aibă independență și autonomie în verificarea tuturor tranzacțiilor, avertizorii de integritate trebuie protejați, iar încălcările legii duc la pedepse penale. Pe scurt, o lege ce obligă organizațiile impactate să aibă politici și proceduri clare, auditabile, de menținere a calității datelor financiare.

Această lege a dat un șoc și industriei IT, multe companii aruncându-se să ofere software-uri care să asigure calitatea datelor financiare. De aici și până la definirea termenului de guvernanță a datelor nu a mai fost decât un simplu pas.

De ce tocmai astăzi este guvernanța datelor atât de importantă?

Tehnologia evoluează cu o viteză fantastică. Odată cu tehnologia crește exponențial și cantitatea de date digitale generate, conform Statista.

 grafic

Se generează extraordinar de multe date – 328.77 milioane terabytes generați zilnic. 333 de miliarde (da, miliarde) de e-mailuri sunt trimise zilnic, multe cu atașamente. Și toate aceste date trebuie organizate. Avem și tone de date nestructurate, care vin de exemplu de la dispozitivele IOT. IDC estimează că până în 2025 vom avea peste 55,7 miliarde de dispozitive IoT conectate, generând aproape 80 de miliarde de zetabytes (ZB) de date. Fără o disciplină automatizată, organizațiile nu au nicio șansă să își gestioneze fluxurile de date.

Ca să facem o comparație, gândiți-vă la guvernanța datelor ca la o strategie pentru o hidrocentrală aflată pe un râu al cărui volum crește exponențial. Trebuie să gestionezi riscurile, ce se întâmplă în caz de atacuri din exterior, greșeli din interior, cum poți cel mai bine exploata râul astfel încât să nu se distrugă centrala etc. În același timp, trebuie să te asiguri că viețile oamenilor ce locuiesc în apropierea râului nu vor fi distruse de deciziile tale. Simplu, nu?

Revenind la guvernanța datelor, companiile nu doar că se confruntă cu volume uriașe de date ce trebuie analizate, procesate, arhivate sau distruse, dar au apărut multe legi ce au efecte asupra modurilor în care companiile aleg să-și gestioneze datele. Directiva NIS2, Data Services Act, Digital Market Act, Data Act, GDPR, e-Invoicing (e-Factura, sună cunoscut?), AI Act, directiva e-Privacy, directiva e-Commerce și așa mai departe – cum poți să fii în conformitate cu prevederile tuturor acestor legi fără să ai o guvernanță a datelor în organizație? Mai jos un tablou al tuturor legilor ce au impact asupra datelor digitale, de la Bruegel.

 grafic

Pe de altă parte, o structură de guvernanță a datelor înseamnă că poți scoate într-adevăr maximum de valoare din datele pe care organizația le colectează. Mai țineți minte articolul meu despre „Cum folosesc inteligent datele personale pentru a crește valoarea businessului”? Dădeam acolo un model simplu de maturitate al utilizării datelor într-o organizație, de la Silicon Valley Data Science, și anume:

  • Data Apathetic – deciziile de business sunt rar luate în funcție de date și informații.
  • Data Aware – datele sunt folosite doar în scop de conștientizare, nu și la decizii.
  • Data Critical – o abordare sofisticată de a trata datele ca pe un activ generator de profit, însă doar pentru activitățile critice ale afacerii.
  • Data Driven – toate sistemele de date sunt integrate, lucru ce permite ca toate deciziile de business să fie luate în urma analizării datelor.

Ia ghiciți care tip de organizație generează cel mai mare profit, sustenabil pe termen lung. Când te gândești la un model de maturitate al utilizării datelor, te gândești de fapt la guvernanța datelor.

Pe scurt, guvernanța datelor duce la scăderea costurilor operaționale și la creșterea veniturilor.

Ce componente intră în guvernanța datelor?

Guvernanța datelor este un concept, nu există o singură abordare care să fie utilizată de către toate organizațiile din lume, indiferent că sunt din sectorul privat sau din sectorul public. Există însă niște componente clare care sunt obligatorii în orice abordare de implementare a unei strategii de guvernanță a datelor. Să începem cu una din cele mai importante:

Calitatea și încrederea datelor

Există mai mulți parametri ai calității datelor, inclusiv acuratețea, exhaustivitatea, fiabilitatea, relevanța și actualitatea. Asigurarea unei calități ridicate a datelor înseamnă că acestea sunt adecvate pentru scenariile de utilizare în operațiuni, decizii și planificare. Hai să facem un scurt exercițiu, uitându-ne la tabelul de mai jos:

 grafic

Ce probleme de calitate observăm aici? Păi avem o șaorma cu de toate, avem ID-uri ale angajaților dublate, numere de telefon alocate la mai mulți angajați, câmpuri lipsă, date incorecte, formate din date amestecate (la e-mailuri și telefoane). Nu ne-a luat mult să identificăm erorile, ne ia însă niște minute bune să le reparăm – mai ales până aflăm datele corecte. Extindeți această tabelă cu încă niște zeci de coloane și sute de mii de linii. Efortul dintr-o dată devine unul uriaș. Imaginați-vă mai multe dimensiuni ale acestui tabel, adică o bază de date și gândiți-vă ce înseamnă să corectați așa ceva.

Gândiți-vă însă ce înseamnă să NU corectați așa ceva. Datele curg în continuare în această bază de date coruptă, ceea ce înseamnă că anumite e-mailuri nu vor fi primite, persoane diferite vor primi e-mailuri destinate unor alte persoane. Și erorile se amplifică exponențial. Ei, aici vine conceptul de calitate a datelor, împreună cu politici, proceduri și bune practici.

La ora actuală vorbim de sisteme interconectate ce prelucrează cantități uriașe de date, cum am arătat mai sus. Să luăm exemplul unui website de e-commerce, ce vinde să zicem produse sportive. De obicei avem următoarele sisteme de date interconectate: Help Desk, notițele agenților de la help desk, e-mail, CRM – loializare, vânzări, date utilizatori, contracte, promovare și feedback, social media, service, analize demografice, campanii, aplicație mobilă, website și loguri. Ce înseamnă date incorecte? Produse trimise greșit, helpdeskul ce expune datele altor clienți încălcându-le intimitatea, targetare proastă, vânzări proaste și faliment.

Ce strategii de îmbunătățire a calității datelor avem? Începem cu definirea rolurilor de data stewards, niște eroi al căror rol este să se asigure că datele sunt corecte, integre, căutabile și disponibile persoanelor și departamentelor care au nevoie de ele. Vorbim imediat de acești eroi. În al doilea rând, audituri de date frecvente care să identifice automat inconsistențele și erorile. În al treilea rând, standardizarea formatelor de date. Aș putea scrie aici un roman despre ce orori am văzut prin diverse organizații care nu au folosit formate standard de fișiere de analiză de business, abordări ce au dus la decizii de business bazate pe date total greșite. Ce înseamnă să nu ai un format de date clar, inclusiv la modul în care denumești un fișier? Păi vă spun eu:

Contract.Client.29Nov2023.FINAL.FINAL.FINAL2.Rev_Legal.Rev_Legal2.30Dec2023.docx

Sună cunoscut, nu?

De asemenea, trebuie stabilite reguli de validare automată a datelor iar angajații trebuie train-uiți despre modul de lucru cu datele pentru a exista o consistență în abordare.

Data Stewardship

Rolul unui Data Steward este extrem de important. El sau ea este eroul sau eroina care:

  • Creează definițiile și clasificarea datelor (vorbim despre clasificare imediat);
  • Monitorizează calitatea și consecvența datelor;
  • Implementează protocoalele de securitate a datelor;
  • Asigură conformitatea datelor cu legile și reglementările relevante;
  • Facilitează disponibilitatea datelor și a schimbului de date între diferite departamente.

Acest rol este unul extrem de important pe care mulți eroi sau eroine îl fac fără să știe că se numește așa. Este de obicei un guru al excelurilor și al bazelor de date, însă numirea sa pe o astfel de poziție este un avantaj economic uriaș.

Securitatea datelor

Tot în zona de guvernanță a datelor intră și securitatea. Securitatea datelor nu înseamnă doar GDPR – care se referă doar la datele cu caracter personal, nu înseamnă doar standardele din familia ISO 27000, ci înseamnă o abordare completă pentru a adresa următoarea provocare: organizația trebuie să fie pregătită 24/7 pentru un atac cibernetic în timp ce hackerii aleg când o atacă; organizația trebuie să își acopere toate „găurile” de securitate în timp ce hackerii au nevoie de o singură vulnerabilitate descoperită. La asta se adaugă următoarea provocare: oamenii greșesc. Recomand să citiți articolul meu despre importanța securității datelor, tot pe blogul ING.

Clasificarea și etichetarea datelor

Aici introducem conceptul de metadate – date despre date. Metadatele sunt de obicei niște etichete care se „lipesc” de date, așa cum de dosare lipim etichete de diverse culori să știm cum le îndosariem (apropo, și gestiunea datelor non-electronice este parte dintr-o strategie de guvernanță a datelor). Dacă sunteți curioși cum arată niște metadate, deschideți un fișier Word și apăsați Info:

 grafic

Tot ce vedeți la Size, Pages, Words, Title etc. sunt metadate. Ele sunt „lipite” în mod standard de fișierul Word. Însă vedeți acolo și câmpurile Title, Tags, Comments, Status, Categories, Subject, Company. În acele câmpuri se pot insera, manual sau automat, etichete suplimentare ce duc la clasificarea acestui document ca fiind restricționat sau nu, al unei companii, al unui departament sau al mai multor departamente, parte a unui proiect, având un anumit statut etc. Aceste etichete, odată alocate, sunt indexate de un sistem de gestiune electronică al documentelor precum Microsoft 365 sau Google Workspace. Care apoi sunt folosite la căutări pe un anumit departament, subiect, proiect sau diverse căutări complexe pentru a identifica cele mai noi versiuni ale unui document, foi de calcul, prezentări sau proiect. Adio

FINAL.FINAL2.FINALDEFINAL.JURCĂEFINAL.

Am dat exemplul cu Word ca să înțelegeți mai bine conceptul, însă aceste etichete se pot „lipi” cam de orice date. Date de sesiune de conectare la o bază de date, loguri, date de utilizator temporar, etichete temporale, activități, istoric modificări, versionare etc. Cel mai des aceste etichete sunt „lipite” automat de către sisteme dedicate, ce permit o ierarhizare a etichetelor și implicit a informațiilor. Aceste etichete permit urmărirea evoluției datelor, a informațiilor și a responsabilității tuturor persoanelor implicate în prelucrări.

Ce beneficii aduce un sistem de clasificare și etichetare a informațiilor:

  • Înțelegerea datelor: Metadatele oferă un context esențial care ajută la înțelegerea a ceea ce reprezintă datele, originea și formatul acestora, facilitând astfel interpretarea și utilizarea;
  • Căutare și descoperire: metadatele etichetate și catalogate corespunzător pot îmbunătăți drastic eficiența căutării și recuperării datelor în cadrul unei organizații;
  • Calitatea datelor: Metadatele pot include informații despre calitatea datelor, care este esențială pentru procesele analitice și luarea deciziilor;
  • Liniaritatea datelor: Metadatele pot oferi o înregistrare istorică a datelor, urmărind modificările în timp și asigurând trasabilitatea;
  • Conformitate și securitate: Metadatele pot include controale de acces și informații de conformitate, facilitând gestionarea datelor în conformitate cu cerințele legale.

Lucrez acum cu niște organizații care trec prin efortul de implementare a unor tehnologii de clasificare a informațiilor și de gestiune a metadatelor. Nu este atât de complicat precum credeți însă scenariile de utilizare eficientă a datelor post-implementare sunt extraordinare. Aici se vede că „data is gold”.

Implementarea unei strategii de guvernanță a datelor

Ca să definim o strategie de guvernanță a datelor, întâi trebuie să înțelegem ce fel de fluxuri de date avem în organizație. Cum facem asta? Păi, vă recomand să citiți articolul meu despre fluxuri de date, tot de pe blogul ING. Odată ce avem fluxurile, putem evalua starea actuală a guvernanței datelor, identificând punctele forte și punctele slabe.

Apoi trebuie să ne uităm la modul actual în care evaluăm calitatea datelor (dacă o facem), ce politici și proceduri avem, cum sunt ele conforme cu cadrul legal existent (nu doar GDPR, precum spuneam) și dacă avem o anumită arhitectură a datelor sau nu. Trebuie să știm de unde plecăm, practic!

Ulterior începem să lucrăm cu oamenii cheie din organizație (care mai întâi trebuie identificați), oameni care vor beneficia cel mai mult de implementarea unei strategii de guvernanță a datelor. IT-ul, marketingul, vânzările și operațiunile sunt direct afectate. Contribuțiile și adeziunea acestora sunt esențiale pentru punerea în aplicare eficace a unui cadru de guvernanță.

Urmează cel mai dificil pas: să știm ce vrem. Ce obiective avem, ce vrem să automatizăm, ce KPI-uri avem. Pe scurt, cum măsurăm succesul. Obiectivele ar putea varia de la conformitate și gestionarea riscurilor la îmbunătățirea calității datelor sau facilitarea informațiilor de afaceri. KPI-urile trebuie să fie SMART: specifice, măsurabile, realizabile, relevante și încadrabile în timp.

Utilizarea tehnologiilor de guvernanță a datelor presupune analizarea cadrului tehnologic actual, ce include: instrumente de calitate a datelor, soluții de gestionare a metadatelor, instrumente de liniaritate și ierarhizare a datelor și multe altele. Selecția trebuie să se alinieze la obiectivele organizației și la infrastructura existentă.

Odată ce știm ce vrem să facem, hai să și testăm. Pentru aceasta putem alege un departament sau un set de date specific pentru testarea pilot. Acest lucru ne va permite să identificăm blocajele, să evaluăm eficacitatea cadrului și să facem ajustările necesare înainte de extindere.

Last but not least, trainings. Lumea trebuie să și învețe să respecte politicile și procedurile și să lucreze cu datele în cadrul de guvernanță, nu improvizând. Să nu creeze „insule” de date care nu sunt indexate sau cunoscute, fiindcă vor introduce erori în sistem, erori ce se propagă exponențial, distrugând businessul.

Care este viitorul guvernanței datelor?

Sunt multe alte aspecte ale gestionării datelor despre care încă nu am vorbit. Aspecte ce țin de Big Data, de inteligența artificială, de data lake-uri, data mesh-uri, niveluri semantice etc. Urmează să tratăm și aceste subiecte, însă vreau să subliniez câteva trenduri care încep să apară.

În primul rând vorbim de data-as-a-product. Pe scurt, privim seturile de date ca pe produse ce pot fi consumate, intern sau extern de către angajați, parteneri sau clienți. Modul în care concepem seturile de date, guvernanța lor, scenariile de analiză și utilizare se face într-un mod centrat pe „clientul final”, indiferent dacă el este un client intern sau extern. O parte din aceste „produse” vor avea prețuri, o parte vor fi „gratuite” (cu limitări în utilizare, bineînțeles), ceea ce se numește „data altruism” – pui seturi de date la dispoziția comunității pentru a ajuta la dezvoltarea industriei.

În al doilea rând vorbim de democratizarea accesului la date. Mult mai multe roluri vor avea acces la mult mai multe date. Organizațiile vor avea acces la date la care până acum nu aveau acces. Gândiți-vă ce va însemna să vă puteți conecta direct la bazele de date ale instituțiilor naționale din România, dacă să zicem sunteți un cabinet notarial, pentru a descărca informații cheie despre clienți de acolo în loc să îi chemați cu tone de hârtii și hârtiuțe. Dacă aveți un cabinet medical, să puteți descărca date despre pacienți direct din sisteme naționale sau sisteme private, cu consimțământul pacientului, în loc să îl puneți să vină cu analize și hârtii de la medici.

Dacă vorbim și de algoritmi de inteligență artificială care să prelucreze și să genereze noi seturi de date, vedem imediat cât de importantă este guvernanța datelor. Fără o strategie clară de guvernanță, riscăm nu doar să nu monetizăm corect seturile de date pe care le avem, ci chiar să ne facem praf organizația, prelucrând date incorecte.

Tudor Galos
Tudor este consultant în protecția datelor având o experiență de peste 20 de ani în business. De șase ani conduce cabinetul de consultanță Tudor Galoș Consulting, lucrând cu o echipă care adresează peste 200 de clienți din Europa, Statele Unite, Marea Britanie și Orientul Mijlociu. Are o certificare europeană de Data Protection Officer obținută la European Center for Privacy and Cybersecurity din cadrul Maastricht University – Faculty of Law, este autorul unui curs DPO acreditat la Ministerul Muncii și Solidarității Sociale și a două cursuri online de GDPR cu peste 15.000 de participanți. Este speaker la evenimente internaționale unde prezintă soluții ce adresează cele mai noi provocări de privacy din domeniile Big Data, Inteligență Artificială, Cloud Computing, Blockchain.