Stordata-kybernetikk

Hvordan kombinere det datadrevne og teoridrevne

Et nytt tverrvitenskapelig fagområde ved NTNU, «big data cybernetics», jobber med nye metoder for å kombinere domenekunnskap med maskinlæring og fysisk modellering. Målsetningen er blant annet å kunne hente ut mer informasjon og bedre modeller fra store datastrømmer, blant annet fra måleinstrumenter.
Tekna Big Data inviterer til seminar 27. november i Trondheim.

Programmet:

Inge Harkestad fra Tekna ønsker velkommen

Vision, Challenges and Philosophy, Harald Martens, Idletechs/NTNU
1-Harald-Martens-Visions-Challenges-and-Philosophy

PCA and PLSR Algorithms, Damiano Varagnolo, NTNU
2-Damiano-Varagnolo-PCA-and-PLSR-Algorithms

Hybrid Modeling as an enabler for Big Data Cybernetics, Adil Rasheed, NTNU
3-Adil-Rasheed-Big-data-cybernetics

Industrial Use Case, Oddbjørn Malmo, Kongsberg Maritime
4-Oddbjorn-Malmo-Tekna-Big-Data-Maritim

Spørsmål i panel

Se flere opptak fra Tekna Big Datas arrangementer.

Er du Tekna-medlem kan du melde deg inn i Tekna Big Data ved å sende en SMS med BIGDATA til 2007.

11 svar til “Stordata-kybernetikk”

  1. Hei. Jeg hadde ikke mulighet til å få med meg arrangementet mens det foregikk, vil det bli gjort tilgjengelig som opptak?

  2. Har dere noen tanker om veien fra akademia til næringslivet? Kostnaden ved å ta i bruk big data kan kanskje være høy? Med mange dyre utfordringer som kompetanse, løsningsvalg, infrastruktur/skytjenester, strukturering av data?

    1. For det første er det viktig at studenter i akademia lærer om TOLKBARE, RASKE stordata-verktøy, om deres muligheter og begrensninger, og hvordan disse vektøyene kan brukes. Spesielt er det viktig å se forskjellen på
      1) KI-rådgivningsverktøy som kan læres opp til å gi f.eks. 70 % eller 90% rett svar; disse kan brukes som informasjonskilder, men ikke som avgjørende informasjon i kritiske systemer. Disse verktøyene kan evt. være av «black box»-typen ( maskinlæring basert på ANN,CNN, deep learning, osv, selv om dette er skummelt).
      2) KI-tolknings- og styringsverktøy som er forståelige nok og sikre nok til å bli brukt i kritiske prosess-steg. Disse må være transparente – black box metodikk er uegnet til slikt, såvidt jeg kan se.
      For det andre er det behov for videreutdanningskurs for ansatte i nærinslivet. Her er det foreløpig uklart hvem som bør utvikle og holde slike kurs – kanskje TEKNA /NITO, kanskje NHO/LO, kanskje NTNU/UiO/UiA/UiB/UiS/UiT osv.

      Det er riktig at det medfører betydelige kostnader med å få opp kompetanse, gjøre løsningsvalg, bygge infrastruktur, leie (?) skytjenester og strukturere egne data. Det gjelder å begynne i det små, med konkrete, tekniske anvendelser, få innsikt, erfaring og selvtillit, og bygge faglige nettverk, og ikke minst: harmonisere forventninger og ambisjoner: Man må få bedriftsledelsen ned på jorda når det gjelder KI-forventninger. Og man må få teknologene og operatørene med på en bevisst handlingsplan internt.

  3. When you use artificial intelligence to explain what the physical-based model is not capable of explain, I assume than in complex systems AI might explain significantly much more, in that case does it actually make sense to include those physical based models? Are we fooling ourselves?

    1. Important question!

      1) If possible, loosely structured input data must be organized so that they may be thought of as well-structured data tables or streams of input data (sensor fusion). Unstructured data (free text etc),may also be analyzed with AI tools, but that is a more difficult process, as far as I know. (But I am not an expert on using unstructured data).

      2) In my experience, there is NEVER enough information in DATA ALONE- the data need CONTEXT to become meaningful to people.

      That context is first of all: Clear info about what the columns and rows in the data tables actually mean, and meta-data about how, why and when the data were measured or collected, with what intent, and even, by whom.

      Moreover, while the laws of nature indeed are imbedded in empirical real-world measurements, it is risky, expensive and unnecessary to let the machine learning methods rediscover these laws from data only, and in a black box. Why?

      Risky: Because data-driven re-discovery of the laws of physics requires that the training data have sufficient variability or the right type to allow all the relevant physical «laws» to be observed with sufficient clarity (independently, sufficiently densely sampled, and with sufficient precision or replication). «Big Enough Data» does not necessarily mean «Informative Enough Data».

      Till now, the AI-culture has not communicated well enough with their friendly competition, the statisticians, about how to designgood enough training data sets, as far as I can see. Well, unfortunately that goes for several other science cultures as well. The thoughts behind statistical experimental design have a lot to offer in this context, even though they may need further extension into the realm of Big Data.

      Expensive: Without a good strategy and good statistical tools to ensure sufficiently informative training data, people tend to ask for a LOT of training data instead. That can be expensive. And it is even more expensive to implement an ill-trained AI-system in practice, only to discover that it fails the next week, when the real-world conditions have changed and the laws of nature combine in different ways.

      Correct me if I am wrong, but I believe that the very strength of ANN/CNN methods, – namely the ability to describe highly heterogeneous and nonlinear relationships in data and later to INTERPOLATE inside these descriptions, – then becomes their weakness: The nonlinearity makes EXTRAPOLATION very very difficult.

      Known physical laws, combined with the ability to discover, describe and display also new and unexpected patterns in data, then has a better chance of giving robust use of Big Data, allowing even some degree of extrapolation.

      Unnecessary: Today we have good methods to utilize known physical laws as well as other types of established scientific insights and domain expertise in conjunction with BIG DATA. This is called Hybrid modelling (ref. Adil Rasheed’s talk). If the prior knowledge involves slow computational elements, they can be speeded up by MULTIVARIATE METAMODELLING.

      So, in summarizing this long comment, I think that YES, there are many ways to fool ourselves, not the least in AI. But by building our quest for the unknown on established science foundations and people’s real-world experience, the risk of making fools of ourselves is greatly reduced. There are still plenty of surprises out there waiting to be discovered.

      The ability of black box modelling tools to model all kinds of structures in data- be it known or unknown, linear or nonlinear, local or global, is fantastic. But it should be handled with care. Black box AI has important roles to play, but NOT HAVING TO THINK can make us stupid. Do we want that?

    1. Tja, min erfaring er at eksisterende historiske stor-data i industri og i skip ofte har høy kompleksitet, mangler kontekst, og mangler av og til sentrale og selvfølgelige nøkkel-variabler. Så det er litt av en jobb å finne meningsfull struktur i slike data, og man er ikke garantert at det blir vellykket.

      Bare det å gjøre dataene egnet for datamodellering (dvs sensor-fusion) er en kjempejobb i seg selv.

      Men selv etter god data-opprydding må man være forberedt på å skulle dempe ledelsens ofte uralistiske forventning om hvor mye verdifull info det er i bedriftens historiske Big Data, bare man «bruker AI».

      Så en alternativ veg å gå er at en bedrift kan starte helt i den andre enden: Hvor enkelt kan det gjøres å komme igang med kvantitiativ Digitalisering innenfor en Industri 4.0 kontekst?

      Tekna-bloggen her er ikke stedet å drive egenreklame. Men jeg må nesten bruke et reelt eksempel for å forklare mitt svart til Vidar om hvilke industrier som kan benytte seg av stordata kybernetikk:

      Kvantitativ stordata kybernetikk
      ……………………………………………………

      Begynn med et REELT problem i bedriften, f.eks. faren for uønsket varmgang i et viktig teknisk utstyr, f.eks. en pumpe, et gear eller en transformator.

      Skaff så ledelses-støtte til innkjøp og bruk av en RELEVANT, MODERNE, MANGE-KANALS SENSOR, av en type som er godt forstått, som gir mange typer informasjon i parallell, som er lett å få satt opp og ikke for dyr. Eksempel: Termisk kamera, fast montert for kontinuerlig monitorering av dette viktige utstyret.

      Nesten alle naturlige prosesser, og alle (?) menneskeskapte maskiner og utstyr, har virkningsgrad <100%. Det vil som regel si at prosessene og utstyret gir fra seg varme, enten vi vil det eller ikke.

      Eksempler: Eksoterme kjemiske reaksjoner, forbrenningsmotorer, smelteovener, varme- og kjøleanlegg, friksjon i kulelager, varmgang i transformatorer og sikringsskap.

      Mengen og fordelingen av varmeutvikling i tid og rom vil avhenge av hvor hardt prosessen eller utstyret kjøres, og utstyrets egen tekniske tilstand.

      Overflatens temperaturfordeling detekterer varmekameraet kontinuerlig. Med dagens termiske video-kameraer er det derfor relativt lett å kontinuerlig måle hvordan denne "overskuddsvarmen" -ønsket eller uønsket – synes å utvikle seg i rom og over tid. Ett enkelt termisk kamera med f.eks. 25 000 pixler kan tenkes på som 25 000 individuelle termometere. Leser man dette av hvert sekund, blir det mye rådata i løpet av et år. Men tenk da på informasjonsinnholdet i denne 25 000-dimensjonale termiske datastrømmen som en "termisk informasjons-transformasjon" av hva det nå er som generer varme inni utstyret. Da gjelder det å finne de underliggende systematiske sammenhengene, og prøve å forstå deres årsaksforhold

      Så med stordata-kybernetisk programvare oppdages alle disse systematiske variasjonsmønstrene – kjente som ukjente: Ut fra denne ellers overveldende datastrømmen (25 000 ulike målinger, f.eks. hvert sekund) vil man automatisk oppdage, kvantifisere, komprimere og fremvise alle disse termiske variasjonsmønstre på overflaten av det utstyret man overvåker. Dette går av seg selv med stordata-kybernetikkens multivariate selv-modellering.

      Om man vil, kan man så invertere denne termiske informasjons-transformen, dvs drive "reverse engineering" i de resulterende datamodellene (tolkbar stordata-kybernetikk). Dermed får man ny kausal-innsikt i oppførselen til prosessen eller utstyret man har behov for å stabilisere. Disse maskinlærings-modellene har nemlig mye lavere kompleksitet enn f.eks. neuralnett-løsninger, og er derfor mye lettere å tolke grafisk. Selv om vi måler 25 000 ulike variabler, er det ikke 25 000 ulike kausale sammenhenger eller 25 000 ulike variasjonsmønstre – kanskje bare 3, eller 5, eller etter hvert 10? Når vi så ser på disse mønstrene som automatisk oppdages, vil noen av dem være lette å forstå ut fra vår erfaring og teoretiske kunnskap, mens andre kan være litt uventede- de siste må man så studere nærmere, og da kan man bli enda litt klokere.

      Datamodellenes tilstandsvariabler kan i sin tur brukes til prosess-styring. Og man kan få bedre tidlig-alarm for uventede utviklinger (begynnende, farlig varmgang eller feilaktig varmefordeling osv).

      Man kan gå videre og få dynamiske modeller av hver av de automatisk modellerte temperatur-oppførselene. Kanskje kan man til og med bruke dette i prediktivt vedlikehold av utstyret, selv om det er er lengre lerret å bleke.

      Jeg viste såvidt i fordraget mitt igår et eksempel på slik termisk selv-modellering: Hvordan vi nå er begynt å overvåke maskineriet i en hurtigferge i Trondheimsfjorden, og oppdager alle dets ulike termiske variasjonsmønstre, og kvantifiserer disse. Systemet kjører nå også på tungt elektisk utstyr i norsk metallurgisk industri.

      Generalisering:
      Når man først har fått dette relativt enkle teknisk stordata-systemet til å fungere ett sted i bedriften, kan erfaringen brukes til å ta ibruk lignende moderne sensorer av andre slag også (aksellerometere, spektrofotometre, hyperspektrale kameraer osv) – og på andre steder i bedriften. Datamodelleringen er nemlig stort sett den samme. Dette tror jeg er en harmonisk, enkel og forståelig måte for en bedrift å komme videre med Industri 4.0 i praksis, med minimum av hype og prislapp.

      Derfor, tilbake til ditt spørsmål, Vidar: Hvilke industrier har data med kvalitet egnet for "bigcyb":

      Personlig er jeg skeptisk til gamle industri-data, fordi jeg har erfart at det er så mye jobb å gå inn i dem, og fordi man kan bli så skuffet over hva som mangler i dataene.
      Men jeg tror definitivt på at bedriftene bør skaffe seg masse nye stordata, men da med klar målsetting og ikke så komplisert kontekst.

      Og jeg tror alle typer industri har utstyr eller prosesser der mønsteret i f.eks. varmeutviklingen kan gi økt innsikt, sikkerhet og styringsmulighet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *