Adam Bellemare, hlavný technolog Confluent Vznik generatívnej umelej inteligencie znovuzrodil dlho diskutovanú otázku: ako získať vaše systémy a služby údaje, ktoré potrebujú na to, aby vykonali svoju prácu?Zatiaľ čo najčastejšie sa pýtajú na mikroslužby a obývanie dátového jazera, generatívna umelá inteligencia posunula svoju cestu do popredia tohto zoznamu.Tento článok skúma, ako sú požiadavky na dáta generatívnej umelej inteligencie rozšírením starého problému prístupu k údajom a ako vám môžu dátové toky poskytnúť chýbajúcu odpoveď. Kľúčovým problémom pri prístupe k údajom je, že služby, ktoré vytvárajú pôvodný záznam údajov, nie sú nevyhnutne najvhodnejšie na hosting ad-hoc prístupu k nim. Vaša služba môže byť dokonale schopná plniť svoje skutočné obchodné povinnosti, ale nie je schopná slúžiť týmto údajom potenciálnym klientom.Zatiaľ čo môžete údaje vystaviť pomocou rozhrania, služba nemusí byť schopná zvládnuť objem dotazu alebo typy dotazov, ktoré sa očakávajú. Data analytici narazili na tento problém pred desaťročiami, kde pôvodný systém záznamov (a ) nemohol poskytnúť potrebný výkon a výkon pre analytické prípady použitia. dátový inžinier by extrahoval dáta z pôvodného systému záznamov a naložil ich do Zatiaľ čo sa nástroje a technológie v priebehu desaťročí zmenili, hmota zostáva rovnaká: kopírovanie údajov z operačného priestoru do analytického priestoru. Databáza OLTP Databáza OLAP Fig 1 Jednoduchá úloha Extract-Transform-Load (ETL) kopírovanie údajov z operačnej domény do analytického domény. Fig 1 Mikroslužby majú rovnaký problém. Ako získajú údaje, ktoré potrebujú? Jednou z bežných možností je priamy dotaz na pôvodný systém záznamov, cez HTTP, SOAP alebo RPC, napríklad. Podobne ako v prípade analytika údajov, rovnaké obmedzenia platia, pretože služba nie je schopná zvládnuť prístupové vzory, požiadavky na latenciu a zaťaženie, ktoré na ňu kladú iné závislé služby. Aktualizácia systémov na zvládnutie nových požiadaviek nemusí byť ani primeraná, berúc do úvahy zložitosť, obmedzené zdroje a konkurenčné požiadavky. Fig 2: Ostatné služby budú vyžadovať údaje na riešenie svojich vlastných prípadov obchodného použitia, čo povedie k sieti spojení bod-to-bod. Obrázok 2: Kľúčom k tejto problematike je, že Táto otvorená požiadavka komplikuje veci, pretože služba musí robiť dobrú prácu pri plnení svojich priamych obchodných povinností a musí tiež podporovať vzory prístupu k údajom nad rámec svojich priamych obchodných prípadov použitia. the services that create the data must also provide access to it for external systems Aplikácia, ktorá vytvorila údaje, je tiež zodpovedná za splnenie dotazu na údaje na požiadanie všetkých ostatných služieb. Fig 3: Riešenie na poskytovanie prístupu k údajom k službám, systémom a AI je , zodpovedný len za obeh a distribúciu údajov v celej organizácii. prichádza (niekedy tiež známy ako ) sa dedicated data communications layer data streaming event streaming Stručne povedané, vaše služby publikujú dôležité obchodné údaje do trvanlivých, škálovateľných a reprodukovateľných dátových tokov. Ďalšie služby, ktoré tieto údaje potrebujú, sa môžu prihlásiť k príslušným dátovým tokom, spotrebovať údaje a reagovať na ne podľa svojich obchodných potrieb. Vlastná vrstva komunikácie údajov, ktorú poskytujú toky údajov, zjednodušuje výmenu údajov v celej organizácii. Fig 4: Streamovanie dát vám umožňuje napájať služby akejkoľvek veľkosti (buď mikro alebo makro), obývať vaše dátové jazerá a iné analytické koncové body a napájať aplikácie a služby umelej inteligencie v rámci vašej firmy. Služby nemusia zapisovať všetky svoje dáta do dátového toku, iba to, čo je užitočné pre ostatných. Dobrým miestom na začiatok je preskúmať požiadavky, ktoré služba spracováva, ako napríklad požiadavky GET, pretože ilustrujú typy údajov, ktoré sa bežne požadujú od iných. Ostatné služby čítajú dáta z dátových tokov a reagujú na ne aktualizáciou vlastných štátnych obchodov, uplatňovaním vlastnej obchodnej logiky a generovaním výsledkov, ktoré môžu tiež publikovať do vlastného toku. Už nežiadajú údaje ad-hoc od služby výrobcu - namiesto toho dostávajú všetky svoje dáta prostredníctvom dátového toku, vrátane nových údajov, odstránených údajov a zmien vykonaných v údajoch. Keďže už nevyžadujú údaje na požiadanie, musia udržiavať kópiu stavu, o ktorý sa starajú, vo svojich vlastných úložiskách údajov. (Poznámka: Nemusia ukladať všetky údaje, len polia, o ktoré sa starajú) Spotrebiteľ sa stáva výlučne zodpovedným za svoje vlastné ukazovatele výkonu, pokiaľ sú údaje k dispozícii v dátovom prúde. Streamovanie dát ponúka významné výhody pre mikroslužby, AI a analytiku. Umožňuje sprístupniť dáta ľubovoľným systémom, procesom alebo službám, ktoré ich potrebujú.Dáta napísané do tokov môžu byť široko dostupné v celej organizácii.Služba výrobcu zapisuje dáta raz a spotrebitelia môžu dáta čítať tak často, ako potrebujú.Všimnite si, že lacné disky a cloudové úložisko vám umožňujú udržiavať dáta v toku tak dlho, ako potrebujete (vrátane nekonečného uchovávania!) Zjednodušuje závislosti medzi výrobcami a spotrebiteľmi. výrobca už nie je zodpovedný za obsluhu vzorcov dotazov tých, ktorí závisia od jeho údajov. spotrebiteľ už nie je závislý od výpočtovej a úložnej výkonnosti výrobcu, aby slúžil jeho obchodným potrebám. Výrazne znižujete množstvo spojení bod-to-bod vo vašom podnikaní, namiesto toho sa spoliehate na výrobu opakovane použiteľných, samoaktualizovaných dátových súborov. Odpojenie: Spotrebiteľské služby môžu tolerovať výpadky výrobcov bez významného zhoršenia služieb, hoci tok údajov sa už nebude aktualizovať a nakoniec sa stane zastaraným. Power operational (OLTP-based) systémy: dátové toky vám umožňujú vytvárať udalosti riadené (mikro)služby, ktoré spotrebúvajú dáta a píšu svoje vlastné dáta do tokov. Napájanie analýzy v reálnom čase a analýzy dávok: Analytics môže používať rovnaké prúdy údajov pre analýzu v reálnom čase alebo ako zdroj pre vytváranie tabuliek Iceberg alebo Delta pre analýzu dávok. Fuel Gen AI a AI agenti: Rovnaké prúdy môžu tiež napájať generatívnu AI. Údajové prúdy umožňujú nízku latenciu vyhľadávania s rozšírenou generáciou (RAG) a budovaním kontextu, takže vaše AI dotazy majú vždy najrelevantnejšie a najaktuálnejšie informácie. Opraviť zlé dáta raz, šíriť všade: Môžete opraviť zlé dáta pri zdroji a šíriť ich prostredníctvom dátového toku všetkým následným spotrebiteľom.Zatiaľ čo existujú niektoré nuansy na zaobchádzanie so zlými údajmi v udalostiach, existuje mnoho spôsobov, ako zabrániť tomu, aby sa zlé dáta dostali, a opraviť ich, ak sa to stane. Stále môžete používať pripojenia požiadavky/odpovede typu point-to-point. Nie je to všetko alebo nič. Môžete postupne migrovať niektoré služby a pracovné zaťaženia na streamovanie údajov, pričom ostatné sa môžu spoliehať na ich existujúce architektúry požiadaviek a odpovedí. Prúdy údajov vám umožňujú napájať operácie, analytiku a AI, a to všetko z rovnakého zdroja údajov. Ako vrstva komunikácie s údajmi, umožňuje vašim kolegom a ich službám ľahko nájsť a použiť údaje, ktoré potrebujú pre svoje podnikové prípady použitia. Jednou z posledných hlavných výhod je strategická výhoda. Táto je trochu ťažšie kvantifikovať, ale je to nepochybne jedna z najdôležitejších. Investovaním do vrstvy streamovania údajov otvoríte širokú škálu možností na to, aby vaše dáta fungovali. Apache Kafka, populárna voľba pre streamovanie dát, ponúka širokú škálu konektorov na integráciu so všetkými druhmi systémov a služieb. Už nie ste obmedzení len na používanie AI, ktoré sú integrované s vašou ponukou dátového jazera, alebo tých pripojených k poskytovateľovi cloudových služieb, ktorý ukladá všetky vaše analytické dáta. Namiesto toho môžete ľahko skúšať modely od všetkých druhov poskytovateľov, keď sa stanú dostupnými, čo vám dáva prvú výhodu pri využívaní najnovších Premýšľanie o údajoch, ako k nim pristupovať a ako ich dostať tam, kde musia byť, bolo vždy výzvou, najmä pre operačný / analytický rozdiel. Ale príchod GenAI ho urobil ešte dôležitejším, čo pridáva ešte väčšiu váhu a dôležitosť k riešeniu tohto starovekého problému. V srdci je jednoduchý princíp - nechajte svoje obchodné služby sústrediť sa na prípady použitia ich podnikania a nechajte dátovú komunikačnú vrstvu poskytovať údaje všetkým, ktorí ju potrebujú prostredníctvom prenosu dát s nízkou latenciou.