Google är ett företag fyllt av data med stora parker av dataservrar. PageRank är nyckeln till hur sökresultaten rangordnas, nämligen efter hur ”populära” dvs. hur ofta länkade webbsidor är. Ser man på företagets utveckling så ser man ett frenetiskt jagande efter nya källor till – data. Som förstås skall bli affärer. Rekryteringskampanjerna utmärker sig av gåtor som pekar på intresset, ja fixeringen vid algoritmer, vid räknemönster.
Boken ”Super Crunchers” av den ytterst seriöse Yale-professorn Ian Ayres är långt ifrån den lättsinniga samling kåserier som omslagscitatet fällt av Freakonomics-författaren Steven Levitt låter förmoda. Nej, det är en tung, faktaspäckad men också pedagogisk genomgång av ett antal av de möjligheter som tillgång till stora datamängder med stark datakraft skapar. Påbyggnadsartiklar av Ayres själv (bl a på Freakonomics blogg) och andra, t ex i Wired, visar på ett fält bara i början av sin utveckling.
Boken börjar dock med ett roligt exempel som förleder läsaren att förmoda att boken blir ”något åt kåserihållet”. En annan professor, Orley Ashenfelter på Princeton, väletablerad nationalekonom, har haft fräckheten att reducera vinprovning till – en algoritm. En formel, nämligen för Bordeaux Vinkvalitet = 12,145 + 0,00117x(vinterns regnmängd) + 0,0614x(medeltemperatur under växtsäsongen) – 0,00386x(skörderegnmängd). Med något fler faktorer kan han göra exakta förutsägelser för vinkvaliteten från mer än hundra vinslott. Vinprofeterna är, förutsägbart nog, upprörda.
Den berömde Robert Parker, som försäkrat sin näsa för miljonbelopp (i dollar), kallar Ashenfelter en ”fullständig skojare”, ”med en Neanderthalares sätt att se på vin, så absurt att det är att skrattretande”. Det är bara det att Ashenfelters spådomar vid senare vinauktioner visat sig slå rätt – mer rätt än Parkers näsbestämda bedömningar. Tre månader efter skörden 1989 spådde han att detta skulle bli århundradets vin – och han skulle komma att få rätt…
Ayres pekar på en del sociala problem med att räkna på och därmed ”förutse” allt. Det finns våldsamt stora samlingar av persondata (företaget Acziom har 850 Tbyte) som gör det möjligt att skapa ett hundratal marknads-, livsstils- eller beteendenischer. Det kan leda till mer av diskriminering i det fördolda – samtidigt som författaren visar hur det kan användas för att avslöja och belägga diskriminering. När ett företag tackar för att man varit så trogen och därför erbjuder något gratis, ja, då har man betalat för mycket tidigare. En spelare som förlorat så mycket att hon är på väg att ge upp får en fri drink och hålls borta från spelandet en stund…
Vissa räknar på risker för att kortinnehavare skall skilja sig, detta för att de då blir sämre risker för finansföretaget. Men det går att vända på kuttingen, som Erin Etzioni gjorde när han upptäckte att han fått betala mycket mer för sin flygbiljett än resenären i grannstolen. Etzioni utvecklade Farecast, ett system för att, baserat på historiska data en masse, förutsäga flygpriser. Detsamma finns för fastigheter (fast hur det stämde när bubblan brast har jag inte kollat; Zillow.com bygger på cirka 70 miljoner huspriser).
Med kraftfulla vägar till databearbetning blir det lättare att testa olika framgångsvägar – från medicinska preparat till webbannonser. Ett kreditföretag testade erbjudanden med mellan 3,25 och 11,75 procents ränta och mycket riktigt var lägre ränta mer attraktivt. Men om det i brev till manliga potentiella låntagare fanns ett foto av en leende kvinna så hade det samma effekt som en räntesänkning med 4,5 procent. Ayres använde metoden för att bestämma vilken titel hans bok skulle få. Själv trodde han på ”The End of Intuition” men ”Super Crunchers” vann överlägset, med 63 procent fler klickar. Från mer än en kvarts miljon sidbetraktningar på Internet…
Det verkliga paradkapitlet handlar om EBM, evidence based medicine. Som så ofta finns det en person bakom, Don Berwick, tagen dels av statistiken som sa att 98 000 människor dog i onödan på amerikanska sjukhus, dels av hur hans fru som visade sig lida av en ovanlig immunsjukdom behandlades. I slutet av 2004 startade han kampanjen ”rädda 100 000 liv på 18 månader”. De åtgärder han närmast tjatade om var inte särskilt avancerade men väl belagda om någon bara gjorde som han: granskade statistiken, forskningen. Som t ex pekade på vikten av att – tvätta händerna. De sjukhus som deltog i kampanjen som omfattade sex åtgärder varav handtvätt var en behövde inte åta sig alla sex åtgärderna men väl ge dödsfallsstatistik 18 månader före och för de 18 månaderna av kampanj. Jämförelsen pekade på mer än 120 000 sparade liv.
Boken introducerar pedagogiskt nyckelbegrepp som regressionsanalys, standardavvikelser och neurala nätverk. De senare är ett alternativ till att söka regressioner och explicita algoritmer – idén kommer från forskning om artificiell intelligens, försök att få datorer att tänka och lära sig som människor. Med massor av data kan datorn ”lära sig” att se mönster. På en högskola tränade man t ex en dator att förstå vilka hundar som vann i hundkapplöpningar. Över ett antal lopp förlorade ett lag på tre experter 60 dollar, datorn vann 125. Baksidan är att nätverket är ogenomskådligt: vilka och var återfinns effekterna av ett enskilt inmatat faktum? Det finns heller inga sannolikheter som säger att resultatet blir si eller så med säg 95 procents sannolikhet.
Dick Copaken och företaget Epagogix arbetar inte med boktitlar och algoritmer utan med filmmanus och neurala nätverk. Det visar sig att manusinnehåll ger en mycket god möjlighet att se vilka intäkter en film skall generera – alltså inte valet av skådespelare, regissör etc. Metoden är inte perfekt (än?), men den klarade av att spå rätt för sex filmer av nio, med föga felmarginal. Extrapolerar man som Ayres handlar det om någon miljard dollar per år för ett stort filmbolag. Dessutom kan man avläsa effekterna av olika ändringar i manus, kostsamma eller ej, och, om det kostar, vad avkastningen blir. I nästa steg kan man ta med även filmstjärnor och regissörer, men dessa spelar alltså föga roll och förlorar en hel del av sina förhandlingsövertag. Men stjärnorna kan nyttja systemet för att bestämma sådant som om de skall få ett fast gage eller en andel av vad den totala publiken betalar. Det visade sig att många filmbolag struntade i resultaten eftersom det skulle reta så många av deras normala kompisar – och det skapar stort utrymme för den mindre hänsynsfulle…
Oväntat spännande kanske, och poängfylld, är Ayres redogörelse för en vetenskaplig fejd han haft (och har?) med John Lott. Lott har under diverse pseudonym kritiserat Ayres och berömt sig själv på Internet. Striden gäller effekten av om man tillåter dolda handeldvapen, en het politisk fråga i USA, där båda forskarna, Ayres och Lott, och deras resultat blivit viktiga argument i en förbuds-tillstånds-debatt. Lott har varit den korrekte vetenskapsmannen i det att han ställt sin stora databas till vilka som helst andra forskares förfogande. När Ayres och hans kollega kollade fann de för det första att små ändringar i regressionsekvationen eliminerade de effekter Lott funnit, för det andra och värre, viktiga parametrar råkade av dataprogrammet sättas till noll. Med korrekta värden blev resultatet det motsatta mot vad Lott funnit. Mer än tio forskare ytterligare har utnyttjat databasen och USAs vetenskapsakademi sammanfattade med att data inte gav något klart utslag.
| Av |
| Av Kent Rylander, 11 maj 11:22 kommentarer |
| Av Redaktionen, 27 feb 08:27 kommentarer |
| Av Niklas Larsson, 26 jan 15:05 kommentarer |
Författare:
Bengt-Arne Vedin
Publicerad: 13 okt '08 10:42
Ian Ayres: Super Crunchers. How anything can be predicted. John Murray, London 2007 (paperback 2008) föreslå
Inga nyckelord | föreslå
Artikeln är inte placerad. föreslå
Länk till artikeln: