Stora uppgifter ändrar kundanalys spelet för Yammer, Spil Games, Jobrapido

Nästa upplaga av HP Discover Performance Podcast-serien ger djupa insikter i hur stor data ändra spelet kring kundanalys.

olika problem

HP Vertica General Manager Sets Sevärdheter om nästa generations Anywhere Analytics Platform, hur MZI Health identifierar big data patienten produktivitet pärlor med HP Vertica, HP Vertica arkitektur ger massiva prestandaökning Till tuffaste BI Förfrågningar för Infinity Insurance, när realtid är inte längre bra nog framträder den prediktiva företag, Podcast resumé: HP Experter analysera och förklara Haven stora uppgifter nyheter från HP Discover, HP: s globala CISO brett Wahlin om framtiden för säkerhet och risker, Djupare intelligens stor spridning via HP Vertica skördar analys pärlor för Guess ” detaljhandel strategi, som Platform 3,0 mognar förvänta vig tillgång, distribution av handlingskraftig intelligens inom företaget: The Open Group panel, Advanced IT övervakning ger prediktiva diagnostik fokus till United Airlines, Converged Cloud News från HP Discover: Vad det innebär

Denna fallstudie paneldiskussion belyser hur olika organisationer kommer med medel för att utveckla mycket bättre analyser om sina kunder. Lär dig hur högpresterande och kostnadseffektivt stora databehandling möjliggör en brant inlärningskurva från kunder på deras önskemål och preferenser.

Expertpanelen består av Rob Winters, chef för rapportering och Analytics på Spil Games, baserat i Amsterdam, Davide Conforti, Business Intelligence chef på Jobrapido, baserad i Milano, och Pete Fishman, chef för Analytics på Yammer i San Francisco.

Socialt företagande, Linkedin avslöjar sin nya blogging plattform, stora datamängder, är detta en ålder av Big OLAP,? Big Data Analytics, DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap, stora datamängder, MapR grundare John Schroeder steg ner, COO för att ersätta

Diskussionen, som ägde rum vid det senaste HP Vertica Big Data-konferensen i Boston, leddes av Dana Gardner, chefsanalytiker på Interarbor Solutions.

Nedan följer några utdrag.

Företagen har analysera sina kunder för en lång tid. Vad är annorlunda nu?

Fishman: Vi är ett moln programvarutjänst, och data är stor. Våra data om kunderna är nu alla lever i en central plats. Genom att aggregera över företag som använder programvaran, kan du få riktigt stora urvalsstorlekar och verklig slutsats, både från en ekonomisk mening, när det gäller att mäta hissen, men faktiskt, eftersom urvalsstorlekar är så stor, kan du få statistisk slutledning .

Det är utgångspunkten för att göra analyser värdefulla och lära sig mer om dina kunder.

Winters: För mig är problemet utrymme extremt annorlunda än vad jag hade att göra med ett par år tillbaka.

Jag var inom telekom innan. Där du arbetar med 25 miljoner människor, och om du rescore dem en gång i månaden, det är tillräckligt snabbt. På en webbsida skala problem, jag göra med 200 miljoner kunder och jag måste rescore dem inom 10 eller 15 minuter. Så du fånga betydligt mer data. Vi tittar på miljarder poster per dag kommer in i våra system. Vi måste använda det så fort som möjligt, eftersom med kundupplevelsen på nätet, minuter materia.

Conforti: Det är exakt samma historia med oss. Vi har cirka 40 miljoner unika besökare per månad nu. Vi har vuxit med tvåsiffriga sedan starten som en start under 2006. Nu är allt om användarinteraktion, hur våra användarna beter sig på plats, och hur vi kan engagera dem mer på plats och ge dem en enorm ad- hoc användarupplevelser.

Winters: Vi är i första hand en plattform. Vi gör några spelutveckling och publicering, men vår kärnverksamhet är att bara vara plattformen där människor kan komma och hitta innehåll som är intressant för dem. Vi har funnits i ungefär nio år.

Vi började som bara en holländsk [spel] företag och sedan vi har fått andra lokala domännamn i en mängd olika språk. Vid det här laget, vi har cirka 50 olika plattformar, som körs i cirka 20 olika språk. Så vi stödja kunder från hela världen. I en given månad, har vi mer än 200 länder med trafik på våra sidor.

Hela verksamheten förändras, och du tävlar baserad utanför det kundupplevelsen som du kan leverera. Vi har ett par målgrupper: flickor, unga flickor, 8-14, pojkar, och då kvinnor.

Fishman: Yammer är en start i San Francisco. Vi förvärvades ungefär ett år sedan av Microsoft och vi är en del av den större Office organisation. Vi ser oss som företag social bakgrund av detta många-till-många-kommunikation modell och göra kommunikationen på ditt företag mycket mer effektiv.

Det handlar om ytbeläggning relevant kunskap och experter och göra arbetet lever bättre. Jag kör en Analytics-teamet där, och vi ser i huvudsak på de sammanlagda kundbeteenden och vilka delar av vårt verktyg människor använder.

Detta var en riktigt revolutionerande idé som våra grundare David Säckar och Adam Pisoni hade vägen tillbaka när Facebook var inte alls lika relevant som det är idag. Men vi har utnyttjat en hel del av det sätt som människor har lärt sig att interagera i deras sociala liv och ta del av den effektivitet av kommunikation. De såg att dessa sociala nätverk skulle växa och vara relevant i en privat, säkrade ramen för ditt företag.

Conforti: Jobrapido startades 2006 som ett entreprenöriellt utmaning som Vito Lomele, en italiensk kille, började i Milano. Det är en utmaning att leva i online-marknaden i Italien, eftersom talang sammanslagning är inte så omfattande som i USA eller i andra länder i Europa. Vad vi gör är att ge arbetssökande möjlighet att hitta sin nya jobb.

Vi är en online jobbet-sökmotor och vi har för närvarande arbetar i 58 olika länder med mer än 20 språk. Vi är alla i denna stora huvudkontor i Milano med en mängd olika nationaliteter, på grund av kursen ger vi tjänsten på lokala språk för de flesta av våra kunder.

Sociala nätverk

Nyligen har vi köpt av Daily Mail, en stor mediekoncern baserad i London. För oss är det allt från arbetssökande förvärv och bevarande och engagemang handlar konstant kvalitet och användarupplevelse på plats. Vi använder vår stora datalager för att förstå hur man bättre kan attrahera och behålla kunder på grund av deras preferenser. Och vi också använda den för att justera vår matchningsalgoritm, som fungerar mer eller mindre som en Googles algoritm.

Vi genomsöka en hel del innehåll från olika källor, både anslagstavlor och andra arbetsplatser eller direkt i arbets sidor enskilda företag. Vi sätter ihop dem i en stor databas och, med hjälp av statistiska verktyg, vi sluta vilken typ av rankning våra arbetssökande är villiga att se.

Så det är en ganska tung uppgifter knaprande övning som vi gör varje dag på miljontals olika sponsrade eller organiska inlägg.

Till exempel, om Yammer killar eller om Spil Games killar vill hyra en programvara ingenjör, de direkt kan marknadsföra sina sponsrade annonser på Jobrapido utan att behöva sponsra dem på ett jobb ombord. Så vi försöker att aggregera och förenkla kedjan jobbsökande.

Vad var problemet var du tvungen att lösa när det gäller att få på denna stora uppgifter för analys?

Winters: För mig, utmaningen var flera gånger. Hur hanterar ni dessa data problem med denna sort och volyminformation? How do you presentera den på ett meningsfullt sätt för anställda som har aldrig tittat på data innan, så att de kan fatta bra beslut om det? Och hur du kör modeller mot det och mata det tillbaka i en produktionsmiljö så snabbt som möjligt, så att du kan ge dessa kunder en bättre upplevelse än de någonsin fick tidigare på din plattform?

Mitt problem var att ingen någonsin hade försökt att göra det i mitt företag tidigare. Vi gick in med effektivt ett oskrivet blad. Men när du börjar att ta in olika datakällor, du börjar med alla de saker som du vet att du kommer att behöva direkt.

Du börjar se behövs länkar till andra datakällor. Vid det här laget, vi drar data från tusentals databaser, samman med dussintals programmeringsgränssnitt (API). Du drar i din webbloggdata, så att du kan personifiera för dessa folks som inte ger dig registreringsinformation.

När vi först började leta efter ett datalager apparat eller program vi kör Postgres utan index, bara kopior av produktionsdata. För data killar, innebär det att en fråga kommer att ta åtta timmar att genomföra. Det är en tabell över ett par miljoner rader.

Vi visste att en typisk rad-baserad lösning var ute. Så vi började titta på några av de andra program där ute. De stora är Teradata, Exadata och Greenplum, men du kommer att behöva belåna hus varje anställd i företaget för att kunna ge en licens för dessa program, och vi är en ganska litet företag. Så de var ute.

stor data

Det handlar om hastighet

ökad prestanda

End-to-end-kostnader

Sedan började vi titta på några av de andra boutique leverantörer som Infobright, och i princip såg vi att med HP Vertica, kan vi ha relativt låg belastning på vår databasadministratören (DBA), så att vi kan utvecklas snabbt utan en hel del underhåll.

Prissättningsmodell passar vad vi behöver för att uppnå, och resultatet är så bra att vi inte behöver spendera massor av tid på optimering nu. Vi kan i princip röra sig mycket snabbt längs denna väg att bli en datadriven organisation utan att behöva få höll upp på index optimering eller försöker optimera våra frågor och skriva vägar.

Vi kan bara kasta en massa saker i systemet, slå ihop, ta resultaten och få stora vinster för företaget snabbt.

Vi har ett datacenter, och vi gör allt på våra egna privata servrar. För oss är nästa steg förmodligen kommer att vara på väg mer i ett privat molnmodell, och förhoppningsvis kommer Vertica arbeta i den miljön också.

Vid Yammer, vad var din stora dataproblem och hur har du lösa det?

Fishman: Vårt problem set var att det fanns en hel del människor som försöker komma in i företaget sociala rummet. En hel del sociala nätverk poppar upp, och i huvudsak konkurrerar om uppmärksamhet i arbetet är en utmaning.

Vi ansåg att uppgifterna var nödvändigt att ha en konkurrensfördel. David Sacks och Adam Pisoni hade en vision om att utveckla en konsumentmjukvaruföretag med snabb iteration. Med det snabba iteration får du en extra fördel om du kan omorientera sig beroende på vilken del av produkten fungerar. Våra data problem var till stor del om att göra uppgifterna vara en konkurrensfördel i vår utvecklingsmetodik.

Vad var det om Vertica som bidrog till den punkt där du har antagit den? Är det en samtidighet fråga, en volym fråga, hastighet, eller alla ovanstående?

Fishman: Det är allt det ovanstående, men den riktiga höjdpunkten är alltid kommer att vara om hastighet, i synnerhet med tanke på den otroliga konkurrensen om talang, inte bara i Bay Area, men överallt, särskilt när det gäller uppgifter.

Någon som har data i sin titel är någon som mycket är eftertraktade. Denna förmåga att minimera cykeltider för de människor som är en sådan utmaning att hålla och bli upphetsad över de projekt som de jobbar med och är en enorm lösning som gör det möjligt för dem att maximera sin egen förmåga är verkligen kritisk. Det är likadant i vårt utrymme, och i mjukvaruutveckling i allmänhet.

När vi tar på dessa stora risker och utmaningar, förmågan att snabbt identifiera om vi går i rätt riktning, och sedan omorientering där vi är på väg, har varit riktigt avgörande för Yammer vara framgångsrik.

Davide, hur fick du få grepp om data problem?

Conforti: När jag gick Jobrapido, vi redan sprang massor av A / B-tester, som är livsnerven i vår produktutveckling. Vi vill testa allt från att ändra färgen eller teckensnittet för en knapp till en annan layout, eftersom dessa har en enorm inverkan på att förbättra användarnas engagemang.

Förut använde vi Google Analytics verktyg, men vi inte gillar så mycket, eftersom det är exempeldata, så att du knappast nå statistiskt meningsfulla resultat. Vi bestämde oss för att bygga ett datalager för att säkerställa flexibilitet, prestanda, och även en högre nivå av kontroll och datakonsistens. Det är end-to-end-kontroll från källan, mot visualisering, för att göra dem mer angripbara i termer av produktutvecklingen.

Med Vertica, gjorde vi just detta. Vi hällde alla de olika datakällor i en hink, organiserade det, och nu har vi en full kontroll över datamodellen. Med mitt team, jag hantera dessa datamodeller. Det är fascinerande hur snabbt du kan lägga bitar till pusslet eller ta bort andra som inte längre är intressant, eftersom vår affärsmodell, naturligtvis, är ett levande djur, en levande varelse.

Vi uppskattar verkligen denna flexibilitet och den höga nivån av kontroll som Vertica tillåter. Detta förbättrats mycket vår innovationskapacitet och det kommer att förbättra det ännu mer i framtiden.

För närvarande har vi crunch på Vertica ca 30 GB data varje dag (dvs vi lägger upp 30 GB / dag Vertica). Men vi kommer att fördubbla den i några månader, eftersom vi lägger mer saker. Vi vill veta mer om klickmönster våra arbetssökande på sajten och det är massiva data som flödar in Vertica. Dessutom kommer vår licensiering i terabyte sannolikt fördubblas i framtiden.

En annan hård faktum att jag kan dela med er är att var och en av er att använda Vertica har inte nöjd med det första genomförandet av frågan. Om du har möjlighet att optimera det, du nästan öka prestandan av frågan med mer än 100 procent. Detta är min personliga erfarenhet med konsulter eller rådgivare. Vertica är glad att ge det stöd, och detta är verkligen värdeadderande.

Winters: Vad beträffar mått av framgång, när vi gör vår proof of concept (POC), vi tittade på i första hand frågeprestanda. Vid denna tidpunkt var vi inte titta på att använda den för prediktion och personalisering, men bara för analys och rapportering.

Vad vi såg var mot en indexerad Postgres databas. Vi hade gjort en del optimering på data. Våra frågor körde mer än 1000 procent snabbare, och Vertica var skalning ganska linjärt, medan med Postgres, när vi lägger mer data i tabeller, de precis börjat kvävning och just dött helt.

För mig, tillät mig att verkligen göra mitt jobb och har mitt team gör sitt jobb, vilket är en ganska stor mått på framgång.

Den andra saken är att med en relativt liten kluster, kan vi stödja hundratals människor och rapporterar direkt åtkomst till databasen, ett dussin analytiker eller personer som direkt hämta information ur databasen, och alla våra personalisering aktiviteter samtidigt med minimala prestanda hicka. Det är en stor mått på framgång.

Fishman: Jag har liknande synpunkter som Rob, som är en jämförelse mot en Postgres databas. Hastigheterna är åtminstone en – och förmodligen närmare två eller bättre – storleksordning snabbare. Visst på kostnadssidan, är det viktigt med data för att betrakta hela kostnaden. Så det här är en slags tema.

Det finns en kostnad i en mängd för att hantera och reda ut de användbara insikter som inte nödvändigtvis är i prislappen. När man överväger en datalösning bör människor anser end-to-end-kostnader. Vad är egentligen kostnaden per insikt, i motsats till kostnaden per terabyte eller kostnaden per vad som helst.

Vi känner verkligen att Vertica har varit vår bästa lösningen. Vi har varit kunder i över tre år. Så det är en ganska lång relation. Jag kunde inte föreställa mig gå tillbaka till en flerdagsfråga, eller något liknande.

En sak som Davide nämns är att han prognoser hur mycket data som han kommer att lägga in Vertica. Jag är en bedömare själv genom handel. Tillbaka i 2010, gjorde vi vissa uppskattningar om var vi skulle vara i slutet av 2011 när det gäller våra datavolymer. Detta är en ganska enkel extrapolering, och jag fick det fel av åtminstone en storleksordning.

Vad vi funnit är att när du börjar få verkliga insikter från data du vill få lite mer, hämta det kanske här eller där. Också, som vår produkt växte, inför vi några riktiga exponentiell tillväxt på data och antog smarta lösningar för att maximera det mått som vi bryr oss om – kostnad per insikt, eller minimera kostnaderna för insikt.

Det finns många saker som händer samtidigt. Så snubbla över riktigt värdefulla insikter kan hända mycket lättare än när du är mer naiv om det. I huvudsak, du står inför motvind i det. Hitta insikter blir hårdare. Samtidigt, har du större volymer data och vissa stordriftsfördelar där. Så det finns en hel del saker samtidigt interagerar, men helt klart en sak att köra ner att metriska är bäst-i-ras verktyg.

Naturligtvis, bäst att få information om de personer som kan använda den än att bara titta för att sänka kostnaderna.

Fishman: Självklart. Om du visar analyser som ett kostnadsställe, det är fel uppfattning. Det bör syfta till att optimera intäktsströmmar. Vi mikro-optimera produkten, vi mikro optimera försäljning och marknadsföring, verksamheten. Analytics handlar om att förbättra alla på sitt jobb, vilket gör data tillgängliga att tillåta människor att bli mer effektiva.

Lyssna på podcasten. Hitta det på iTunes. Läs en fullständig utskrift eller ladda ner en kopia.

Upplysningar: HP är en sponsor av BriefingsDirect podcasts.

 berättelser

HP Vertica General Manager Ställer siktet på nästa generations Anywhere Analytics Platform

Hur MZI Health identifierar big data patienten produktivitet pärlor med HP Vertica

HP Vertica arkitektur ger massiva prestandaökning Till tuffaste BI Förfrågningar för Infinity Insurance

När realtids räcker inte längre bra, framträder den prediktiva företag

Podcast resumé: HP experter analysera och förklara Haven stora uppgifter nyheter från HP Discover

HP: s globala CISO Brett Wahlin om framtiden för säkerhet och risk

Djupare intelligens stor spridning via HP Vertica skördar analys pärlor för Guess detaljhandel strategi

Som Platform 3,0 mognar förvänta vig tillgång, distribution av handlingskraftig intelligens inom företaget: The Open Group panel

Avancerad IT övervakning ger prediktiva diagnostik fokus till United Airlines

Converged Cloud News från HP Discover: Vad det innebär

Linkedin avslöjar sin nya blogging plattform

Är detta en ålder av Big OLAP?

DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap

MapR grundare John Schroeder steg ner, COO för att ersätta