načítání...


menu
nákupní košík
Košík

je prázdný
a
b

E-kniha: Všichni lžou -- Velká data, chytré algoritmy a jak nám internet může říct, kdo opravdu jsme – Seth Stephens-Davidowitz

Všichni lžou -- Velká data, chytré algoritmy a jak nám internet může říct, kdo opravdu jsme

Elektronická kniha: Všichni lžou
Autor: Seth Stephens-Davidowitz
Podnázev: Velká data, chytré algoritmy a jak nám internet může říct, kdo opravdu jsme

– Už nemusíte chodit ke zpovědi — historie internetového vyhledávání postačí.  – Lidstvo během jediného dne internetového surfování vygeneruje osm bilionů gigabytů dat. A toto neuvěřitelné a historicky nesrovnatelné množství ... (celý popis)
Titul je skladem - ke stažení ihned
Médium: e-kniha
Vaše cena s DPH:  229
+
-
7,6
bo za nákup

ukázka z knihy ukázka

Titul je dostupný ve formě:
elektronická forma ELEKTRONICKÁ
KNIHA

hodnoceni - 71.9%hodnoceni - 71.9%hodnoceni - 71.9%hodnoceni - 71.9%hodnoceni - 71.9% 85%   celkové hodnocení
2 hodnocení + 0 recenzí

Specifikace
Nakladatelství: » HOST
Dostupné formáty
ke stažení:
EPUB, MOBI, PDF
Upozornění: většina e-knih je zabezpečena proti tisku a kopírování
Médium: e-book
Rok vydání: 2019
Počet stran: 327
Rozměr: 21 cm
Vydání: První vydání
Spolupracovali: z anglického originálu Everybody lies ... přeložil Romana Hegedüsová
Skupina třídění: Informační věda
Jazyk: česky
ADOBE DRM: bez
ISBN: 978-80-757-7787-4
Ukázka: » zobrazit ukázku
Popis

Už nemusíte chodit ke zpovědi — historie internetového vyhledávání postačí. 

Lidstvo během jediného dne internetového surfování vygeneruje osm bilionů gigabytů dat. A toto neuvěřitelné a historicky nesrovnatelné množství informací může prozradit opravdu hodně o obavách, touhách a návycích, které nás ženou kupředu, i o našich vědomých či nevědomých rozhodnutích. Několika kliknutími lze získat nesmírně komplexní data o lidském chování a smýšlení, ať už jde o politické preference, každodenní potřeby, nebo sex. Stačí se dívat správným směrem. 

Kromě téměř nekonečné zásoby dat z vyhledávačů čerpá novinář a bývalý datový analytik Seth Stephens-Davidowitz také z experimentů a studií o lidském myšlení. Zkoumá hloubku digitální stopy lidstva i její potenciál: odhalení pevně zakořeněných předsudků a otázek, které máme strach si klást, ale které přitom mohou změnit naši kulturu i společnost k lepšímu. 

Kniha roku podle The Economist. 

Bestseller The New York Times. 

Stephens-Davidowitzova kniha přináší fascinující příběhy a překvapivá fakta a pomáhá nám najít nové způsoby, jak porozumět sami sobě — stačí procházet jednu databázi po druhé.
- Fortune 

Divoká jízda psychologií moderního člověka, v níž roli průvodce zaujímají internetová data. Postřehy ve Všichni lžou jsou natolik strhující, že byste knihu nedokázali odložit, ani kdyby byla napsaná jako obyčejný nákupní seznam.
- The Economist

(velká data, chytré algoritmy a jak nám internet může říct, kdo opravdu jsme)
Předmětná hesla
Zařazeno v kategoriích
Seth Stephens-Davidowitz - další tituly autora:
Všichni lžou Všichni lžou
 (e-book)
Každý klame Každý klame
 
Recenze a komentáře k titulu
Zatím žádné recenze.


Ukázka / obsah
Přepis ukázky

Seth Stephens ‑Davidowitz

všichni lžou


všichni

lžou


všichni

lžou

seth stephens ‑davidowitz

Velká data, chytré algoritmy a jak nám internet

může říct, kdo opravdu jsme

Brno 2019


Everybody Lies

Copyright © 2017 by Seth Stephens ‑Davidowitz Translation © Romana Hegedüsová, 2019 Czech edition © Host — vydavatelství, s. r. o., 2019

(elektronické vydání)

ISBN 978‑80‑7577‑865‑9 (PDF)

ISBN 978‑80‑7577‑866‑6 (ePUB)

ISBN 978‑80‑7577‑867‑3 (MobiPocket) Mámě a tátovi

obsah

Předmluva Stevena Pinkera 11

Úvod: Náznak revoluce 15

velká a malá data

1 Vaše chybná intuice 39

Jak mocná Jsou velká data

2 Měl Freud pravdu? 59

3 Co jsou a nejsou data 69

Těla jako data 76

Slova jako data 88

Fotografie jako data 109

4 Digitální sérum pravdy 116

Pravda o sexu 123

Pravda o nenávisti a předsudcích 138

Pravda o internetu 151

Pravda o zneužívání dětí a potratech 155

Pravda o vašich přátelích na Facebooku 161

Pravda o vašich zákaznících 164

Umíme zacházet s pravdou? 169

5 Je čas zaostřit 175

Co se doopravdy děje v našich městech a okresech? 182

Jak trávíme minuty a hodiny svého času 198

Naši dvojníci 206

Příběhy ukryté v datech 214

6 Svět je jedna velká laboratoř 216

Abeceda A/B testování 218

Kruté, ale poučné experimenty 230

velká data: pozor, křehké!

7 Spousta dat, spousta braku? Co velká data nedokážou 253

Prokletí dimenzionality 256

Přehnaný důraz na vše měřitelné 262 8 Fůra dat, fůra problémů? Čemu bychom se měli vyhnout 267

Nebezpečí příliš mocných korporací 267

Nebezpečí příliš mocného státu 276

Závěr: Kolik lidí dočte knihu až do konce? 281

Poděkování 294

Poznámky 298


11

předmluva

Už od dob, kdy si filozofové pohrávali s myšlenkou vytvořit

„cerebroskop“, bájný přístroj, který by dokázal promítnout

myšlenky na plátno, se sociologové a psychologové snaží na‑

jít nástroje, s jejichž pomocí by bylo možné dobrat se podstaty

fungování lidské mysli. Dříve jsem působil jako experimentál‑

ní psycholog a za tu dobu se takových nástrojů vystřídalo na

výsluní hned několik. Vyzkoušel jsem je všechny: ratingové

stupnice, měření reakční doby, dilataci zornic, funkční neuro‑

zobrazování, dokonce práci s pacienty s epilepsií a implanto‑

vanými elektrodami, kteří byli šťastní, že si mohou jazykovým

experimentem zkrátit dobu čekání na další záchvat.

Nicméně žádná z těchto metod neumožňuje volný přístup

do lidské mysli. Problémem je obrovská ztráta dat. Lidské myš‑

lenky představují složitou veličinu; Woody Allen prošel kur‑

zem rychločtení a po přečtení Vojny a míru prohlásil: „Bylo to

něco o Rusech.“ To si my dovolit nemůžeme. Jenže myšlenky

se v celé své spletité multidimenzionální kráse velice těžko


12 Předmluva

vědecky analyzují. Jistě, když si člověk vylije srdce, dokáže‑

me zachytit rozmanitost jeho proudu vědomí, jenže monolog

nepředstavuje vhodná data pro testování hypotéz. Jestliže se

na druhou stranu soustředíme pouze na hodnoty, které jsou

snadno kvantifikovatelné, jako je například reakční doba na

určitá slova nebo napětí pokožky v reakci na nějaké obrazy,

snadno vytvoříme statistiky, zároveň však zredukujeme slo‑

žitou strukturu lidského poznání na jediné číslo. I ta nejsofis‑

tikovanější metoda neurozobrazování nám sice umí říct, jak

vypadá myšlenka rozložená v 3D prostoru, ale nesdělí nám,

co je jejím obsahem.

Vědce zaobírající se lidskou myslí pronásledují nejen nutné

kompromisy mezi zpracovatelností a bohatstvím myšlenek, ale

navíc ještě takzvaný zákon malých čísel. Amos Tversky a Daniel

Kahneman tak nazvali chybnou představu o tom, že rysy po‑

pulace se projeví v jakémkoli jejím vzorku bez ohledu na jeho

velikost. Dokonce i ti matematicky nejnadanější vědci se drží

žalostně nesprávného tušení týkajícího se otázky, kolik je pro

vědeckou studii potřeba zkoumaných subjektů, aby bylo možné

její závěry — po odstranění všech náhodných podivností a vý‑

střelků — zobecnit kupříkladu na všechny Američany, nemluvě

o homo sapiens. Celé je to ještě ošemetnější, pokud není výběr

takového vzorku náhodný, ale jde třeba o studenty druhých

ročníků nalákané na peníze na pivo.

Tato kniha představuje zcela nový způsob, jak studovat lid‑

skou mysl. Velká data z internetových vyhledávačů a další on‑

line data nejsou tak úplně to stejné jako zmíněný cerebroskop,

ale Seth Stephens ‑Davidowitz dokázal, že skutečně nabízí bez‑

precedentní možnost, jak nahlédnout do lidské duše. V sou‑

kromí svých klávesnic se lidé přiznávají k těm nejpodivnějším

věcem. Někdy proto, že mají nějaký význam v reálném životě

(jako například na stránkách internetových seznamek nebo


13

při hledání profesionální rady), a někdy právě proto, že to žád‑

ný dopad na reálný život nemá: lidé tak odhazují svoje starosti

nebo sdílejí svá přání, aniž by museli čelit vyděšeným reakcím

nebo něčemu ještě horšímu. Ať tak či onak, tito lidé nemačkají

jen tlačítka na klávesnici. Oni zadávají biliony různě seřaze‑

ných znaků, jimiž podrobně vysvětlují svoje myšlenky v celém

jejich výbušném a kombinatorním rozsahu. A co je ještě lepší,

veškeré digitální stopy zanechávají ve formě, ve které se snad‑

no shromažďují i analyzují. Přicházejí ze všech oblastí života.

Mohou se stát součástí nenápadných experimentů, ve kterých

se obměňují podněty a odezva na ně se zaznamenává v reál‑

ném čase. A lidé svoje data naprosto bezelstně poskytují, a to

v množství přímo gargantuovském.

Kniha Všichni lžou přináší více než jen ověření koncepce. Ob ‑

jevy Stephense ‑Davidowitze znovu a znovu převracejí moje

vlastní předsudky a představy o této zemi a mých spoluobčanech

vzhůru nohama. Kde se vzala nečekaná podpora Donalda Trum‑

pa? Když se Ann Landersová v roce 1976 ptala svých čtenářů, zda

litují toho, že mají děti, a k jejímu zděšení jí většina odvětila, že

ano, šlo o mylnou informaci způsobenou nereprezentativním

vzorkem a jeho samovýběrem? Může internet za tak často zmi‑

ňovanou krizi před více než deseti lety, za vytvoření „informač‑

ní bubliny“? Co je spouštěčem zločinů z nenávisti? Vyhledávají

lidé vtipy, aby se rozveselili? A přestože o sobě rád tvrdím, že

se mnou jen tak něco neotřese, to, co internet odhalil o lidské

sexualitě, mě dost šokovalo. Mimo jiné šlo například o zjištění,

že každý měsíc vyhledává jistý počet žen „pohlavní styk s ply‑

šovými zvířátky“. Žádné měření reakční doby, dilatace zornic

ani funkční neurozobrazování by nikdy nedokázaly tento fakt

odhalit.

Kniha Všichni lžou je pro všechny. Stephens ‑Davidowitz s ne‑

utuchající zvídavostí a hřejivým humorem poukazuje na nové


14 Předmluva

způsoby zkoumání na poli společenských věd v jednadvacátém

století. A pokud máme k dispozici tento nekonečně fascinující

pohled do světa lidských obsesí, k čemu by nám byl cerebro‑

skop?

Steven Pinker, 2017


15

Úvod

náznak revoluce

Samozřejmě že prohraje, říkali.

Experti na předvolební průzkumy došli po republikánských

primárkách v roce 2016 k závěru, že Donald Trump nemá nej‑

menší šanci. Vždyť stihl pobouřit tolik menšinových skupin.

Průzkumy volebních preferencí i jejich interpreti nás utvrzova‑

li v tom, že takovou nehoráznost skutečně schvaluje jen málo

Američanů.

Většina odborníků se v té době přikláněla k názoru, že Trump

v prezidentských volbách prohraje. Příliš mnoho potenciálních

voličů vyjádřilo nesouhlas s Trumpovým vystupováním i jeho

názory.

Určité náznaky, že Trump vyhraje jak primární volby, tak

volby prezidentské, ale přece jen existovaly — na internetu.

Jsem odborník na internetová data. Každý den sleduji digitální

stopy, které po sobě lidé zanechávají na síti. Ze všech našich

úhozů na klávesnici a kliknutí myší se snažím vyčíst a pochopit,

co skutečně chceme, čím se opravdu zabýváme a kdo vlastně


16 Úvod

jsme. Dovolte mi vysvětlit, jak jsem se k této neobvyklé profe‑

si dostal.

Všechno to začalo — zdá se to tak hrozně dávno — v průběhu

prezidentských voleb v roce 2008. V té době sociálními věda‑

mi již dlouho rezonovala jedna otázka: Jak velkou roli hrají ve

Spojených státech rasové předsudky?

Barack Obama byl prvním afroamerickým kandidátem na

prezidentský úřad, kterého kdy nominovala jedna z hlavních

politických stran. Vyhrál, a docela hladce. Průzkumy veřejné‑

ho mínění naznačovaly, že v tom, jak se Amerika rozhodo‑

vala, rasová otázka nehrála roli. Například agentura Gallup

provedla řadu průzkumů veřejného mínění před Obamovým

zvolením i po něm. A s čím přišla? Americkým voličům bylo

do značné míry jedno, že Barack Obama je černoch.

1

Krátce

po volbách se dva známí profesoři z Kalifornské univerzity

v Berkeley společně ponořili do dalších dat

2

získaných v jiných

šetřeních a k jejich analýze použili ještě sofistikovanější tech‑

niky. Došli k obdobným závěrům.

Během Obamovy vlády se tyto výsledky staly součástí vše‑

obecného mínění šířeného napříč masovými médii i převláda‑

jícím názorem v akademických kruzích. Zdroje, které média

a sociální vědy přes osmdesát let využívají k lepšímu pochopení

světa kolem nás, nám tvrdily, že když se Američané rozhodo‑

vali, zda má být Obama prezidentem, nebo ne, většině z nich

nevadilo, že je černoch.

Zdálo se, že tato země, ač pošpiněná dlouhými léty otroctví

i zákony Jima Crowa, konečně přestala soudit lidi podle barvy

kůže. Zároveň to vypadalo, že rasismus v Americe mele z po‑

sledního. Někteří experti začali dokonce prohlašovat, že žijeme

v postrasové společnosti.

3

V roce 2012 jsem studoval magisterský obor ekonomie. V ži‑

votě jsem byl úplně ztracený, bez sebemenšího zájmu o studium,


NázNak revoluce 17

ovšem jinak sebejistý, až nafoukaný, a měl jsem pocit, že veli‑

ce dobře rozumím tomu, jak v jednadvacátém století funguje

svět, co si lidé myslí a co je zajímá. A když jsem tehdy narazil

na otázku předsudků, uvěřil jsem — na základě všeho, co jsem

znal z psychologie a politologie —, že explicitní rasismus se týká

pouze malého procenta Američanů, z nichž většina patří mezi

konzervativní republikány žijící daleko na jihu.

A pak jsem objevil Google Trends.

Google Trends je nástroj, který byl bez většího zájmu spuš‑

těn v roce 2009. Svým uživatelům umí ukázat, jak často jsou

v různých částech světa a v různých časových obdobích vyhle‑

dávána určitá slova a fráze. Původně měl Google Trends sloužit

jen pro zábavu, přátelé si třeba mohli zjišťovat, která celebrita

je momentálně nejpopulárnější nebo co se právě nosí. Jedny

z prvních verzí dokonce obsahovaly žertovné upozornění, že

nejde o data, „která by lidé chtěli využít při psaní svých diser‑

tací“. To mě okamžitě motivovalo k tomu, abych s jejich využi‑

tím napsal tu svoji.*

V té době se vůbec zdálo, že informace nalezené na Googlu

nelze považovat za „seriózní“ pro vědecký výzkum. Na rozdíl od

průzkumů veřejného mínění nebyl vyhledávač Google vytvořen

*

Z Google Trends pocházela většina mých dat. Tento nástroj ovšem umož‑

ňuje pouze srovnání relativních četností různých vyhledávání, absolutní po‑

čty konkrétních vyhledávání vám neukáže. Proto jsem čerpal informace také

z Google AdWords, který přesně udává, jak často se provádí určité vyhledávání.

Ve většině případů jsem také dokázal svá data specifikovat pomocí vlastního

algoritmu založeného na Google Trends, který přesně popisuji ve své disertač‑

ní práci „Essays Using Google Data“ (volně přeloženo jako Eseje s využitím

dat z Googlu — pozn. překl.) a v práci publikované v časopise Journal of Pub‑

lic Economics s názvem „The Cost of Racial Animus on a Black Candidate: Evi‑

dence Using Google Search Data“ (volně přeloženo jako „Jak platí černošský

kandidát za rasovou nesnášenlivost: Důkazy založené na datech z Googlu“ —

pozn. překl.). Disertační práce, odkaz na článek i podrobný popis všech dat

a kódování, které jsem v původním výzkumu použil a které zmiňuji v této knize,

jsou dostupné na mých webových stránkách sethsd.com.


18 Úvod

proto, abychom lépe porozuměli lidské duši. Google vyvinuli proto, aby se lidé poučili o tomto světě, nikoli proto, aby se vědci

mohli dozvědět něco o lidech. Jenže se ukázalo, že stopy, které po sobě na internetu zanecháváme při své cestě za poznáním, toho o nás prozrazují víc než dost.

Jinými slovy, vyhledávání informací je samo o sobě jistou in‑

formací o člověku. Ukázalo se, že to, kdy a kde lidé hledají fakta,

citace, vtipy, pomoc, informace o různých místech či věcech,

nám prozrazuje, co si skutečně myslí, po čem touží, čeho se

obávají a čím se doopravdy zabývají, a to v mnohem větší míře,

než by kdy koho napadlo. Platí to zejména z toho důvodu, že

někdy lidé na Googlu ani tak nevyhledávají, jako se mu svěřu‑

jí: „Nesnáším svého šéfa.“ „Jsem namol.“ „Táta mi dal facku.“

Každodenní akt zadání nějakého slova či fráze do bílého ob‑

délníkového okénka za sebou zanechá malou pravdivou sto‑

pu. Vynásobte ji milionem a vyjeví se vám zásadní skutečnos‑ ti. První slovo, které jsem vyhledával na Google Trends, bylo

„Bůh“. Zjistil jsem, že nejvíc se toto slovo vyhledává v Alabamě,

Mississippi a v Arkansasu — tedy v oblasti takzvaného biblic‑

kého pásu. A hlavně v neděli. Na tom nebylo nic překvapivé‑ ho, zajímavé však bylo, že data z vyhledávače dokázala odhalit tak jasný vzorec. Potom jsem zkusil zadat název newyorského basketbalového týmu „Knicks“. Ukázalo se, že tento termín je

na Googlu nejvyhledávanější v New York City. Taky žádná záha‑

da. Pak jsem naťukal svoje jméno. „Je nám líto,“ informoval mě

Google Trends, „není k dispozici dostatečný počet vyhledávání.“

Zjistil jsem, že Google Trends vám dokáže poskytnout data jen

v případě, kdy velké množství lidí vyhledávalo totéž.

Ovšem síla vyhledávače Google netkví v tom, že nám doká‑

že říct, že Bůh je populární v oblastech na jihu Spojených stá‑

tů, Knicks jsou oblíbení v New York City a já nejsem bůhvíjak populární nikde. Ke stejným výsledkům by došel jakýkoli jiný

NázNak revoluce 19

průzkum. Síla dat z Googlu tkví v tom, že lidé tomuto obří‑

mu vyhledávači svěří věci, které možná neřekli nikdy nikomu

jinému.

Vezměte si například sex (tomuto tématu se budu věnovat

mnohem podrobněji dále v knize). Klasickým šetřením se nedá

věřit, že přinášejí pravdivé informace o našem sexuálním životě.

Analyzoval jsem data sesbíraná v rámci General Social Survey

(Všeobecný sociální průzkum).

4

Tento socio logic ký průzkum

je považován za jeden z nejvlivnějších a nejautoritativnějších

zdrojů informací o chování Američanů. Podle něj heterosexuál‑

ní ženy přiznávají, že mají sex v průměru pětapadesátkrát do

roka, z toho v šestnácti procentech případů s použitím kondo‑

mu. Když to sečtete, vyjde vám 1,1 miliardy použitých kondo‑

mů ročně. Ovšem heterosexuální muži tvrdí, že jich spotřebují

1,6 miliardy ročně. Tato čísla by ze své podstaty měla být stejná.

Kdo tedy mluví pravdu? Muži, nebo ženy?

Jak se ukázalo, ani muži, ani ženy. Podle globální informač‑

ní a analytické společnosti Nielsen, která sleduje chování spo‑

třebitelů, se ročně prodá méně než šest set milionů kondomů.

5

Takže lžou všichni; otázkou zůstává, jak moc.

Lhaní je ve skutečnosti velice rozšířené. Muži, kteří nikdy

nebyli ženatí, prohlašují, že ročně spotřebují průměrně devěta‑

dvacet kondomů. Kdybychom to sečetli, vyšlo by nám víc, než je

celkový počet kondomů prodaných v celých Spojených státech

všem sezdaným i svobodným lidem dohromady. Sezdaní lidé

pravděpodobně také přehánějí, když tvrdí, jak často mají sex.

Průměrní ženatí muži mladší pětašedesáti let v průzkumech

uvádějí, že mají sex jednou týdně. Jen jedno procento přizná‑

vá, že za celý předešlý rok neměli sex ani jednou. Vdané ženy

udávají o něco nižší četnost souloží, ale ne o moc.

Data sebraná na Googlu nám přinášejí mnohem méně vese‑

lý — ovšem já tvrdím, že mnohem přesnější — obrázek o tom,

20 Úvod

jak vypadá sexuální život sezdaných párů. Na Googlu je nejčas‑

tější stížností na sexuální život „žádný sexuální život“. Termín

„manželství bez sexu“ je vyhledáván třikrát častěji než „nešťast‑

né manželství“ a osmkrát častěji než „manželství bez lásky“.

Dokonce i nesezdané dvojice si docela často stěžují na to, že

spolu nespí. Vyhledávaný termín „vztah bez sexu“ je hned na

druhém místě za termínem „zneužívání ve vztahu“. (Rád bych

zdůraznil, že všechna uvedená data jsou anonymní. Google

samozřejmě neshromažďuje a neprezentuje data o vyhledávání

žádného konkrétního jedince.)

A data z Googlu přinesla také obrázek Ameriky, který se dia‑

metrálně lišil od oné postrasové utopie, kterou tak umně vy‑

kreslily průzkumy veřejného mínění. Pamatuji si, jak jsem na

Google Trends poprvé napsal slovo „negr“. Jak jsem byl naivní.

Skutečně jsem věřil, že to slovo je natolik toxické, že počet jeho

vyhledávání bude nízký. Vedle jak ta jedle. Ve Spojených státech

slovo „negr“ nebo jeho množné číslo „negři“ patří co do počtu

vyhledávání do stejné skupiny jako slova „migréna“, „ekonom“

a jméno losangeleského basketbalového týmu „Lakers“. Říkal

jsem si, že výsledky jsou možná zkreslené vyhledáváním textů

rapových písní. Nebylo tomu tak. Slovo, které v těchto textech

většinou najdete, je „nigga“ (jedna z hovorových verzí hanlivé‑

ho „nigger — negr“— pozn. překl.). Co tedy stálo za tím, že si

Američané na Googlu vyhledávali slovo „negr“? V řadě případů

šlo o hledání vtipů, které zesměšňují Afroameričany. Dokonce

dvacet procent veškerých vyhledávání obsahujících slovo „negr“

obsahovalo také slovo „vtip“. Mezi další často vyhledávané frá‑

ze patřilo „blbí negři“ a „nesnáším negry“.

Podobných vyhledávání byly miliony ročně. Pěkná řádka

Američanů v teple svých domovů pátrala na internetu po ne‑

skutečně rasistických informacích. A čím víc jsem hledal, tím

horší to bylo.

NázNak revoluce 21

Zatímco po Obamově prvním zvolení se většina komentářů

soustředila na jeho chválu a historický dopad takového výsled‑ ku voleb, zhruba jedno ze sta vyhledávání jména „Obama“ na

Googlu obsahovalo také „KKK“ nebo „negr/negři“. Možná se

vám to nezdá tak moc, ale uvědomte si, že existují tisíce nera‑

sistických důvodů, proč na Googlu hledat informace o tomto mladém outsiderovi s okouzlující rodinou, který měl co nevi‑

dět obsadit nejmocnější pozici na světě. V den voleb se zdese‑ tinásobilo vyhledávání webu Stormfront,

6

internetového fóra

s neonacistickou tematikou, které je v USA překvapivě velice populární, a počet přihlašování na něm. V některých státech

se termín „prezident negr“ vyhledával častěji než „první čer‑

nošský prezident“.

7

Tradičním zdrojům informací tato temná a nenávistná strán‑

ka věci unikla, ovšem z toho, co lidé vyhledávali na internetu, byla jasně patrná.

Uvedená vyhledávání neodpovídají společnosti, ve které hra‑

je rasismus jen malou roli. V roce 2012 jsem o Donaldu J. Trum‑

povi věděl jen to, že je to byznysmen, který se objevuje v růz‑

ných reality show. Stejně jako spousta dalších lidí jsem netušil,

že z něj za čtyři roky bude vážný kandidát na prezidenta. Ale

ta ohavná vyhledávání na Googlu už není tak těžké dát dohro‑ mady s úspěchem kandidáta, který svými útoky na imigranty,

svojí zlostí a nenávistí tak úspěšně hraje na tu nejtemnější lid‑

skou strunu.

Data z Googlu nám také prozradila, že většina z toho, co jsme

si mysleli o lokalitách, kde bují rasismus, byl omyl. Průzku‑ my a veřejné mínění umístily moderní formu rasismu hlavně

na jih a přisoudily ho z větší části republikánům. Ovšem mezi

místa s největším počtem vyhledávání s rasistickou tematikou patřily i sever státu New York, západní Pensylvánie, východní

22 Úvod

Ohio, průmyslové oblasti Michiganu a zemědělské části Illinois,

stejně jako Západní Virginie, jižní Louisiana a stát Mississippi.

Skutečná dělicí čára, jak ukázala data z Googlu, neležela mezi

severem a jihem; ale šlo o východ versus západ. Západně od Mis‑

sissippi už se s touto formou rasismu moc nepotkáte. A rozhod‑

ně nebyl omezený pouze na republikány. Ve skutečnosti nebylo

vyhledávání s rasistickou tematikou o nic častější v oblastech

s vyšším procentem republikánů než v oblastech s vyšším vý‑

skytem demokratů. Data vyhledávaná na Googlu pomohla pře‑

kreslit mapu výskytu rasismu ve Spojených státech — a velice se

lišila od toho, co byste očekávali. Republikáni na jihu se s větší

pravděpodobností k rasismu přiznají, ovšem postoje demokratů

ze severu jsou velice podobné, ač zůstávají nevyřčené.

Za čtyři roky tato mapa sehrála důležitou roli při analýze

Trumpova politického úspěchu.

V roce 2012 jsem použil mapu rasismu, kterou jsem vyvinul

pomocí dat z Googlu, a opětovně prozkoumal, jak důležitá byla

barva Obamovy kůže. Data mluvila jasně. V oblastech s vyšším

počtem vyhledávání termínů s rasistickou tematikou si Obama

vedl podstatně hůř než o čtyři roky dříve John Kerry, demo‑

kratický prezidentský kandidát bílé pleti. Tuto souvislost nevy‑

světloval žádný jiný faktor týkající se těchto oblastí. Podstatná

nebyla ani úroveň vzdělání, ani věk, ani příslušnost k církvi

nebo zda byl volič majitelem zbraně či nikoli. Vyhledávání s ra‑

sistickou tematikou nepředpověděla volební nezdar žádnému

jinému demokratickému kandidátovi. Pouze Obamovi.

A výsledky naznačily, že to skutečně mělo obrovský vliv. Oba‑

ma ztratil na celostátní úrovni přibližně čtyři procentní body

jen kvůli neskrývanému rasismu. Bylo to mnohem víc, než by

se dalo očekávat na základě jakéhokoli průzkumu. Jistě, Barack

Obama se stal prezidentem Spojených států dvakrát po sobě

a pomohly mu v tom i podmínky příznivé pro Demokratickou

NázNak revoluce 23

stranu. Musel ovšem překonat mnohem více překážek, než si

uměl představit kdokoli spoléhající se na tradiční zdroje dat —

a to byli skoro všichni. Rasistů bylo dost na to, aby v období

nepříliš nakloněném demokratům vyhráli primárky či zvrátili

průběh všeobecných voleb.

Moji studii zpočátku odmítlo pět odborných časopisů.

8

Řada

oponentů (odpusťte mi mírné rozladění) tvrdila, že lze jen stě‑

ží uvěřit, že by tolik Američanů mohlo být tak krutými rasisty.

To prostě nesedělo s tím, co se mezi lidmi povídá. Navíc jim

údaje získané z Googlu připadaly jako dost bizarní soubor dat.

Poté co jsme byli svědky prezidentské inaugurace Donal‑

da J. Trumpa, vypadají moje zjištění přece jen trochu důvěry‑

hodněji.

Čím víc jsem se do této problematiky nořil, tím víc jsem zjišťo‑

val, že Google skýtá spoustu informací, které běžné průzkumy

nezachytí, a přitom mohou být velice užitečné pro toho, kdo

se snaží pochopit volby (a samozřejmě mnoho dalších témat).

Najdete tam informace o tom, kdo doopravdy přijde volit.

Více než polovina lidí, kteří nevolí, v průzkumech těsně před‑

cházejících volbám tvrdí, že mají v úmyslu se k volbám dosta‑

vit, což zkresluje odhad volební účasti. Zatímco termíny jako

„jak volit“ či „kde mohu volit“ vyhledávané na Googlu několik

týdnů před volbami dokážou přesně předpovědět, ve kterých

částech země lze očekávat vysokou volební účast.

Možná se tam skrývá také informace o tom, koho tito lidé bu‑

dou volit. Je skutečně možné předpovědět, kterého kandidáta

budou lidé volit, jen na základě toho, co vyhledávají na interne‑

tu? Je jasné, že nelze jednoduše sledovat, kteří kandidáti jsou

nejčastěji vyhledáváni. Řada lidí si informace o svém kandidá‑

tovi hledá proto, že ho má ráda. Stejný počet lidí ho hledá, pro‑

tože ho nesnáší. Společně s profesorem Stuartem Gabrielem,

24 Úvod

přednášejícím v oboru financí na Kalifornské univerzitě v Los

Angeles, jsme objevili překvapivý klíč k tomu, jak lidé plánují,

komu dají ve volbách svůj hlas. Velké procento vyhledávání s te‑

matikou prezidentských voleb obsahuje jména obou kandidátů.

Během souboje mezi Donaldem Trumpem a Hillary Clintonovou

v roce 2016 někteří lidé vyhledávali slovní spojení „volby Trump

Clintonová“. Jiní hledali sestřihy z kandidátských debat a vyhle‑

dávali „debata Clintonová Trump“. V podstatě celých dvanáct

procent vyhledávaných hesel obsahujících „Trump“ obsahovalo

i jméno „Clintonová“. A naopak více než jedna čtvrtina vyhle‑

dávání obsahujících „Clintonová“ obsahovalo i jméno „Trump“.

Zjistili jsme, že tato zdánlivě neutrální vyhledávání nám ve

skutečnosti mohou napovědět, komu dává vyhledávající před‑

nost. Jak? Podle pořadí, v jakém uvádí jména obou kandidátů.

Náš výzkum naznačuje, že ve vyhledávaném hesle obsahujícím

obě jména člověk s mnohem větší pravděpodobností uvede na

prvním místě kandidáta, kterého podporuje.

Ve trojích předcházejících prezidentských volbách v USA do‑

stal nejvíc hlasů ten kandidát, který ve větším počtu vyhledává‑

ní figuroval na prvním místě. Ještě zajímavější bylo, že z pořadí,

v jakém byli kandidáti uváděni ve vyhledáváních, bylo možné

usuzovat, jakou cestou se konkrétní stát vydá.

Zdá se také, že pořadí, v jakém jsou kandidáti uvedeni při vy‑

hledávání, může obsahovat i informace, které běžný průzkum

nezachytí. Nate Silver, novinář a statistik, během prezident‑

ských voleb mezi Obamou a republikánem Mittem Romneym

v roce 2012 naprosto mistrovsky odhadl výsledky ve všech pa‑

desáti státech. My jsme nicméně přišli ještě na to, že v těch stá‑

tech, ve kterých lidé uváděli ve vyhledáváních Romneyho před

Obamou, si Romney vedl mnohem lépe, než předpověděl Silver.

Ve státech, kde byl nejčastěji uváděn Obama před Romneym, na

tom byl nakonec Obama lépe, než Silver očekával.

NázNak revoluce 25

Tento ukazatel může obsahovat informace, které průzkumy

veřejného mínění nezachytí. Buď proto, že voliči sami sobě

lžou, nebo ve veřejných průzkumech neradi odhalují svoje sku‑

tečné preference. Kdyby tedy v roce 2012 tvrdili, že ještě nejsou

rozhodnutí, koho budou volit, a přitom by soustavně vyhledá‑

vali hesla jako „volby Romney Obama“, „prezidentská deba‑

ta Romney Obama“ či „průzkum preferencí Romney Obama“,

možná ve skutečnosti po celou dobu plánovali dát svůj hlas

Romneymu.

Předpověděl tedy Google Trumpovo vítězství? Čeká nás ještě

hodně práce (a bude potřeba ještě mnohem více výzkumů), než

se naučíme, jak data z Googlu co nejlépe využít k přesné predik‑

ci výsledků voleb. Jedná se o zcela novou vědeckou disciplínu

a v tuto chvíli máme k dispozici data sesbíraná pouze z něko‑

likerých předešlých voleb. Rozhodně netvrdím, že si můžeme

dovolit jednou provždy zahodit průzkumy veřejného mínění

jako nástroj k předpovídání volebních výsledků.

Ovšem v mnoha oblastech bylo možné zaregistrovat různá

znamení, že si Trump nakonec povede mnohem lépe, než tyto

průzkumy napovídaly.

Během všeobecných voleb existovaly náznaky, že voliči dají

Trumpovi přednost. Černí Američané v předvolebních průzku‑

mech tvrdili, že se k volbám dostaví ve velkém počtu, aby se

postavili proti Trumpovi. Jenže počet vyhledávání informací

o volbách byl v převážně černých oblastech velice nízký. Což

naznačovalo, že v den voleb by nízká účast černého obyvatel‑

stva poškodila Clintonovou.

Bylo možné zachytit i známky toho, že údajně stále neroz‑

hodnutí voliči nakonec dají hlas Trumpovi. Společně s Gabrie‑

lem jsme zjistili, že se na Googlu vyhledávalo více hesel „Trump

Clintonová“ než naopak, a to v klíčových státech amerického

Středozápadu, kde Clintonová očekávala vítězství. A skutečně,

26 Úvod

Trump za svoje zvolení vděčí faktu, že právě tam dostal výraz‑

ně vyšší počet hlasů.

Já však tvrdím, že nejzásadněji poukazoval na Trumpovo

možné vítězství — a to počínaje primárkami — skrytý rasismus,

který odkryla moje studie. Zkoumaná vyhledávání na Googlu

odhalila u významné části amerického obyvatelstva velice tem‑

nou a nenávistnou stránku, která odborníkům celá léta unika‑

la. Data jasně ukázala, že žijeme v úplně jiné společnosti, než

jakou si představovali akademici a novináři na základě výsled‑

ků průzkumů veřejného mínění. Odhalila odpornou, děsivou

a široce rozšířenou zlobu, která jen čekala na svého kandidáta,

který by byl ochoten ji za všechny vyjádřit.

Lidé lžou často. Lžou sami sobě i ostatním. Při jednom z prů‑

zkumů v roce 2008 prohlásili, že už je rasové otázky nezajímají.

O osm let později si za prezidenta zvolili Donalda J. Trumpa.

Muže, který na Twitteru zveřejnil převzaté falešné obvinění, že

za většinu vražd bílých Američanů jsou zodpovědní černoši;

muže, který obhajoval svoje přívržence, když na jednom z jeho

veřejných vystoupení hrubě napadli protestující členy hnutí

Black Lives Matters (aktivistické hnutí upozorňující na násilí

páchané na lidech černé pleti ze strany státních složek i samo‑

zvaných strážců zákona — pozn. překl.); a v neposlední řadě

člověka, který váhal, zda odmítnout podporu od bývalého lídra

Ku ‑Klux ‑Klanu. Stejný skrytý rasismus, který se obrátil proti

Baracku Obamovi, pomohl Trumpovi k jeho zvolení.

Ještě na počátku primárních voleb vystoupil Nate Silver se

svým slavným prohlášením, že Trump nemá nejmenší šanci.

Jak primárky pokračovaly a na povrch začala vyplouvat Trum‑

pova široká podpora, rozhodl se Silver znovu prozkoumat se‑

sbíraná data a pokusit se pochopit, co se to děje. Jak je možné,

že si Trump vede tak dobře?

NázNak revoluce 27

Všiml si, že oblasti, ve kterých si Trump stojí nejlíp, tvoří

zvláštní mapu. Trump měl největší podporu v různých částech

průmyslového Středozápadu, na Severovýchodě a také na Jihu.

Na první pohled hůř na tom byl na Západě USA. Silver se pustil

do hledání možných proměnných, které by tuto mapu vysvět‑

lily. Byla to nezaměstnanost? Příslušnost k církvi? Vlastnictví

zbraní? Počty imigrantů? Byla to Obamova opozice?

Silver zjistil, že jediným faktorem, který nejlépe koreluje

s podporou Donalda Trumpa v republikánských primárkách,

je měření, které jsem provedl o čtyři roky dříve.

9

V oblastech, ve kterých byla podpora Trumpa nejsilnější,

bylo zároveň nejčastěji vyhledáváno heslo „negr“.

V průběhu posledních čtyř let jsem se analýzou dat z Googlu

zabýval téměř každý den. A to včetně mé stáže ve společnosti

Google, kam mě přijali poté, co se dozvěděli o mém výzkumu na

téma rasismus. Stejnými daty se nadále zaobírám i v rámci dato‑

vé novinařiny, které se věnuji coby publicista v deníku The New

York Times. A odhaluji přitom stále něco nového v dalších oblas‑

tech. Duševní choroby, lidská sexualita, zneužívání dětí, potraty,

reklama, víra, zdraví. Nejsou to právě lehká témata a soubor dat

z Googlu, který ještě před několika desítkami let neexistoval, je

všechny ukazuje z nové a překvapivé perspektivy. Ekonomové

i sociologové neustále hledají nové zdroje dat, takže na rovinu:

jsem přesvědčen, že vyhledávání na Googlu je tím nejzásadněj‑

ším zdrojem informací o lidské duši, jaký byl kdy k dispozici.

Avšak zmíněný soubor dat není tím jediným nástrojem, kte‑

rý vzešel z internetu a díky němuž můžeme lépe pochopit svět

kolem nás. Brzy mi došlo, že na internetu najdu i další digitální

zlaté doly. Stáhl jsem si veškeré Wikipedie, pečlivě prošel profily

na Facebooku i nacionalistické internetové fórum Stormfront.

28 Úvod

míra vyhledávání výrazů

s rasistickou tematikou

podpora donalda trumpa

v republikánských primárkách

Odhadovaný počet republikánských voličů

podporujících pana Trumpa

11

28 % 31 % 34 % 37 %

Míra vyhledávání

10

dolních 20 % horních 20 %

NázNak revoluce 29

Pornhub, jedny z největších pornografických stránek na inter‑

netu, mi navíc poskytly kompletní informace o vyhledáváních

a zhlédnutých videích anonymních uživatelů z celého světa. Ji‑

nými slovy, skočil jsem po hlavě do toho, čemu se dnes říká

velká data. Navíc jsem vyzpovídal desítky akademiků, datových

novinářů a podnikatelů, kteří tato zcela nová území také pro‑

zkoumávají. O řadě jejich studií se zmíním v této knize.

Ale ze všeho nejdřív se musím k něčemu přiznat. Nebudu se

pokoušet o přesnou definici termínu velká data. Proč? Protože

jde o velice neurčitý pojem. Jak velká jsou velká data? Spadá

18 462 pozorování ještě do kategorie malých dat, ale 18 463

už do velkých? Já dávám přednost vše zahrnujícímu pohledu

na to, jaká data označit za velká. Sice většina dat, se kterými si

hraji, pochází z internetu, ale beru v potaz i jiné zdroje. Žijeme

v době, která nás zahlcuje množstvím dostupných informací

různé kvality. Velké množství těchto dat plyne z Googlu a so‑

ciálních sítí. Některá z nich jsou výsledkem digitalizace zdrojů,

které se doposud ukrývaly v zásuvkách a šanonech. Jiná po‑

cházejí z průzkumů trhu. Určité studie zmíněné v této knize

se velkými soubory dat vůbec nezaobíraly. Namísto toho apli‑

kovaly nový a kreativní přístup k analýze dat, což je v době

přesycenosti informacemi zcela zásadní.

Jak to, že mají velká data takovou moc? Představte si, kolik

informací je denně všude na internetu roztroušeno. Umíme

to dokonce vyjádřit i číselně. V průběhu jednoho průměrného

dne na počátku jednadvacátého století umějí lidé vygenerovat

dva a půl milionu bilionů bytů informací.

12

A tyto byty nám slouží jako nápověda.

Je čtvrtek odpoledne a žena se nudí. Na Googlu vyhledává ně‑

jaké „dobré korektní vtipy“. Zkontroluje e ‑maily. Přihlásí se na

Twitter. Na Googlu hledá „vtipy o negrech“.

30 Úvod

Jednomu muži je smutno. Na Googlu hledá „příznaky de‑

prese“ a „příběhy depresivních lidí“. Hraje solitaire.

Žena na Facebooku vidí oznámení o zasnoubení své kamarád‑

ky. Žena je svobodná. Svoji kamarádku na Facebooku zablokuje.

Muž si dá pauzu od vyhledávání informací o lize amerického

fotbalu a rapu a položí vyhledávači otázku: „Jsou sny o tom, že

líbám muže, normální?“

Žena na webových stránkách BuzzFeed klikne na odkaz na

článek „Patnáct nejroztomilejších koček“.

Muž vidí stejný článek. Na jeho stránkách se však jmenuje

„Patnáct nejrozkošnějších kočiček“. Na odkaz neklikne.

Žena hledá na Googlu: „Je můj syn génius?“

Muž hledá: „Jak přimět dceru, aby zhubla.“

Žena je na dovolené se svými šesti nejlepšími kamarádka‑

mi. Všech šest neustále opakuje, jak se skvěle baví. Žena si na

Googlu nenápadně postěžuje: „Bez manžela je mi smutno.“

Muž, manžel té ženy, je na dovolené se svými šesti nejlep‑

šími kamarády. Na Googlu nenápadně hledá: „Jak poznám, že

mě žena podvádí?“

V těchto datech se skrývají informace, které by jinak nikdo ni‑

kdy a nikomu nepřiznal. Pokud je všechny sesbíráme, uchová‑

me v anonymitě tak, aby nebylo možné v nich rozeznat obavy,

touhy či jednání konkrétních jedinců, a zpracujeme vědeckým

způsobem, naskytne se nám zcela nový pohled na lidské bytos‑

ti — jejich chování, touhy i povahy. Ačkoli to může znít poně‑

kud okázale, došel jsem k závěru, že nová data, kterých máme

v naší digitální době čím dál víc, rozšíří radikálním způsobem

naše chápání lidského druhu. Díky mikroskopu jsme také zjis‑

tili, že v jediné kapce vody je toho mnohem víc, než jsme si

mysleli při pohledu pouhým okem. Teleskop nám ukázal, že

noční obloha toho skrývá podstatně víc, než nás kdy napadlo

NázNak revoluce 31

při jejím nočním pozorování. Totéž platí o nových digitálních

datech. O lidské společnosti nám toho mohou říct mnohem víc,

než si myslíme, že o ní už dávno víme. Jsou mikroskopem či

teleskopem naší doby, protože nám otevírají cestu k důležitým,

až revolučním poznatkům.

Podobná prohlášení s sebou ovšem nesou ještě jedno riziko.

Nejen že zní příliš pompézně, ale také jsou módní. Spousta lidí

se nějakým způsobem vyjadřuje k moci velkých dat. Jenže jim

chybí důkazy.

A to je inspirací pro všechny, kteří jsou skeptičtí vůči termí‑

nu „velká data“. Řada z nich se odmítá honit za velkými soubory

dat. „Tím nechci říct, že v tom, čemu říkáme Big Data, nejsou

žádné informace,“ napsal esejista a statistik Nassim Taleb. „Je

v nich spousta informací. Hlavní problém tkví v tom, že hledá‑

me jehlu v čím dál větší kupce sena.“

13

Jedním z hlavních cílů této knihy je tedy poskytnout důkazy

o tom, co vše lze z velkých dat vyčíst, jak najít ty jehly ve stále

větších a větších kupkách sena. Doufám, že uvádím dostatek

příkladů, jakým způsobem velká data přinášejí nové poznatky

o lidské psychice a chování tak, abyste i vy zahlédli obrysy ně‑

čeho skutečně revolučního.

No, možná si právě říkáte: „Přibrzdi, Sethe. Slibuješ nám tu

revoluci. Básníš o velkých souborech dat. Ale zatím jsi všechny

ty úžasné, pozoruhodné, skvělé a převratné informace využil

pouze k tomu, abys nám sdělil dvě věci: v Americe žije spousta

rasistů a lidé, hlavně muži, přehánějí, když tvrdí, jak často si

užívají sexu.“

Uznávám, že i nová data často jen potvrdí to, co už je zřejmé.

Pokud se vám tato zjištění zdála samozřejmá, počkejte, až se

dostanete ke čtvrté kapitole. V ní přináším jasné a nevyvrati‑

telné důkazy z vyhledávání na Googlu, že muži vyjadřují až ne‑

uvěřitelné obavy a nejistotu ohledně... velikosti svého penisu.

32 Úvod

Myslím si, že má cenu přinášet důkazy o věcech, o kterých

jste dosud jaksi předpokládali, že existují, ale chyběly vám dů‑

kazy. Něco tušit je jedna věc. Dokázat to je věc druhá. Pokud by

však velká data měla jen potvrzovat naše tušení, nebyla by re‑

voluční. Umějí toho naštěstí mnohem víc. Znovu a znovu díky

nim zjišťuji, že to na světě chodí úplně naopak, než bych si kdy

pomyslel. Zde je několik příkladů, které vás patrně překvapí.

Možná máte za to, že hlavním důvodem rasismu je ekono‑

mická nejistota a zranitelnost. Možná se tím pádem přirozeně

domníváte, že jakmile lidé začnou přicházet o práci, rasismus

vzroste. Ve skutečnosti se však počty vyhledávání s rasistickou

tematikou či členství v hnutí Stormfront s rostoucí nezaměst‑

naností nijak nezvyšují.

14

Možná předpokládáte, že nejvíc lidí trpících úzkostí žije

ve velkých městech s vysokou úrovní vzdělání. Velkoměstský

neurotik je oblíbený stereotyp. Ovšem vyhledávání na Googlu

týkající se úzkostí (například výrazů jako „příznaky úzkosti“ či

„pomoc při úzkostech“) bývají vyšší v oblastech s nižší úrovní

vzdělání, pod úrovní příjmového mediánu a v místech, kde vět‑

ší část populace žije na venkově. Počty těchto vyhledávání jsou

na venkově na severu státu New York vyšší než v New York City.

Možná si myslíte, že po teroristickém útoku, při němž přišly

o život desítky či stovky lidí, bude automaticky následovat ob‑

rovská vlna strachu. A terorismus má ze své podstaty šířit děs

a hrůzu. Prostudoval jsem hesla vyhledávaná na Googlu týkající

se strachu.

15

Testoval jsem, o kolik vzrostl jejich počet ve dnech,

týdnech či měsících následujících po jakémkoli větším teroristic‑

kém útoku v Evropě či USA od roku 2004. Takže o kolik se v prů‑

měru navýšil počet takových vyhledávání? Nenavýšil se vůbec.

Možná byste řekli, že lidé hledají vtipy na internetu spíš teh‑

dy, když jsou smutní.

16

Řada velkých myslitelů už v minulosti

prohlašovala, že humor je prostředek, jak se zbavit bolesti. Na

NázNak revoluce 33

humor se také nahlíželo jako na způsob, jak se vyrovnat s frus‑

trací, zármutkem či nevyhnutelným životním zklamáním. Slo‑

vy Charlieho Chaplina — „smích nás povzbuzuje, ulevuje od

bolesti“.

Nicméně lidé na internetu vyhledávají vtipy nejméně v pon‑

dělí, které současně považují za nejméně šťastný den. Nejniž‑

ší počty vyhledávání zaznamenáváme i za pošmourných, deš‑

tivých dnů. A po událostech, jakou byl například teroristický

útok během Bostonského maratonu v roce 2013, při kterém

bomba zabila tři lidi a stovky jich zranila, tyto počty klesají ještě

prudčeji. Lidé s větší pravděpodobností vyhledávají humor na

internetu v dobách, kdy se jim daří dobře, ne naopak.

Stává se, že nový soubor dat odhalí chování, touhy či obavy,

které by mě ani ve snu nenapadly. Do této kategorie spadají růz‑

né sexuální sklony a aktivity. Věděli jste například, že v Indii

první místo v počtu internetových vyhledávání, která začínají

slovy „můj muž chce...“, zaujímá fráze „můj muž chce, abych

ho kojila“?

17

Tento dotaz je mnohem běžnější v Indii než v ji‑

ných zemích. I pornografické výjevy, znázorňující ženy kojící

muže, jsou v Indii a Bangladéši vyhledávány čtyřikrát častěji

než v jakékoli jiné zemi na světě.

18

Než se mi dostaly tyto údaje

do rukou, něco takového by mě skutečně ani nenapadlo.

A pokračujeme. Zatímco skutečnost, že muži jsou posedlí

velikostí svého penisu, nemusí být až takovým překvapením,

největší nejistota žen, co se jejich těla týče, a způsob, jakým ji

vyjadřují na Googlu, je opravdu překvapující. Na základě těchto

nových dat je ženský ekvivalent mužských obav o velikost pe‑

nisu — chvíle napětí — obava, zda není jejich vagina příliš cítit.

Vyhledávání žen vyjadřující obavy o vlastní genitálie jsou při‑

nejmenším tak častá jako u mužů.

19

A u žen jim vévodí obava

o jejich odér a to, jak jej mohou vylepšit. To jsem dřív skutečně

netušil.

34 Úvod

Nová data někdy odhalí kulturní rozdíly, o kterých jsem dřív

neměl ani zdání. Příklad za všechny: velice rozdílné způsoby,

jakými muži na celém světě reagují na těhotenství své ženy.

V Mexiku vyhledáváním s tematikou „těhotná manželka“ vé‑

vodí slovní spojení „frases de amor para mi esposa embaraza‑

da“ (láskyplná slova pro mou těhotnou ženu) a „poemas para

mi esposa embarazada“ (básně pro mou těhotnou ženu).

20

Ve

Spojených státech jsou nejčastěji vyhledávány věty jako „žena

je těhotná, co teď“ či „manželka je těhotná, co mám dělat“.

Tato kniha ovšem přináší víc než jen sbírku zajímavostí nebo

výsledků nárazových studií, i když i těch tu bude dost. Vzhle‑

dem k tomu, že tato metodologie práce s daty je natolik nová

a v budoucnu bude nabírat na síle, představím několik nápadů,

jak funguje a proč je tak průkopnická. Ukážeme si i slabá místa

nakládání s velkými daty.

Někdy nebylo nadšení z nekonečných možností práce s vel‑

kými daty úplně na místě. Většina lidí, které datová revoluce

okouzlila, básní o tom, jak obrovské soubory lze využít. Tato

posedlost velikostí souborů dat není nic nového. Dávno před

Googlem, Amazonem a Facebookem, i dávno předtím, než se

objevil termín „big data“, se v texaském Dallasu konala konfe‑

rence s názvem „Velké a komplexní soubory dat“. Jerry Fried‑

man, profesor statistiky na Stanfordově univerzitě a můj kolega

z dob, kdy jsem pracoval v Googlu, si na tuto konferenci z roku

1977 dobře pamatuje. Jeden proslulý statistik se postavil, aby

promluvil. Vysvětloval, jak nasbíral neuvěřitelných, přímo zá‑

vratných pět gigabytů dat. Další proslulý statistik se zdvihl ze

sedadla, aby převzal slovo, a začal: „Kolega disponuje gigabyty.

To nic není. Já mám terabyty.“ Jinými slovy, v každém proslovu

byl kladen důraz hlavně na to, kolik informací dokážeme na‑

shromáždit, a ne na to, co s těmi daty dál nebo na jaké otázky

v nich budeme hledat odpověď. Friedman k tomu říká: „Tehdy

NázNak revoluce 35

mi přišlo docela vtipné, že se všichni snažili udělat dojem hlav‑

ně velikostí svého souboru dat. A děje se to pořád.“

21

Mnoho vědců sbírá ohromná množství dat, která nevypoví‑

dají o ničem zásadním. Dozvíme se z nich například, že v New

Yorku je populární basketbalový tým Knicks. Odborníci z příliš

mnoha oblastí se přímo topí v datech. Disponují spoustou tera‑

bytů dat, z nichž však umějí vytěžit jen velice málo důležitých

informací. Myslím si, že se velikost souboru dat často přeceňu‑ je. Dá se to snadno vysvětlit. Čím silnější jev, tím menší počet

pozorování je potřeba k tomu, abychom si ho všimli. I horké

plotýnky se stačí dotknout jen jednou, aby vám došlo, že je to

nebezpečné. Kávu si můžete dát i tisíckrát, než budete moci

říct, zda vás z ní bolívá hlava, nebo ne. Které z uvedených po‑

učení je důležitější? Jednoznačně to s horkou plotýnkou, které

se vlivem své intenzity projevilo tak rychle a s malým počtem

pozorování.

Pravda je dokonce taková, že ty nejchytřejší společnosti vy‑

užívající velká data snižují jejich objem. V Googlu se zásadní

rozhodnutí dělají na základě malého vzorku všech jejich dat.

22

K tomu, abyste objevili zásadní informaci, nepotřebujete vždyc‑

ky tuny dat. Ale musí to být ta správná. Hlavní důvod, proč jsou

vyhledávání na Googlu tak cenná, netkví v tom, že jich je tolik;

jde o to, že jsou v nich lidé upřímní. Lidé lžou svým přátelům,

milencům, lékařům, lžou v dotaznících, dokonce i sami sobě.

Ale na Googlu sdílejí věci, za které by se jinak styděli, jako na‑

příklad to, že v jejich manželství chybí sex, mají psychické po‑

tíže, píšou o svojí nejistotě či nenávisti k černochům.

A co je nejdůležitější, chcete‑li proniknout do velkých dat

a pochopit, co nabízejí, musíte si klást ty správné otázky. Stejně jako nemůžete jen tak náhodně namířit teleskop někam na ob‑

lohu a očekávat, že pro vás objeví Pluto, nelze stáhnout hroma‑

du dat a čekat, že vám sama vyjeví tajemství lidské duše. Musíte


36

hledat na slibných místech, třeba mezi indickými vyhledávání‑

mi na Googlu, která začínají slovy „můj manžel chce“.

V této knize si ukážeme, jak nejlépe využít velká data, a po‑

drobně si vysvětlíme, co všechno nám to může přinést. A záro‑

veň se dozvíte, co jsme přitom já i ostatní objevili. Mimo jiné:

• Kolik je mezi muži homosexuálů?

• Funguje reklama?

• Proč byl American Pharoah tak skvělý dostihový kůň?

• Přinášejí média zkreslené informace?

• Skutečně existují freudovská přeřeknutí?

• Kdo podvádí při placení daní?

• Není jedno, na jakou vysokou školu jdete?

• Lze zvítězit nad akciovými trhy?

• Které místo je nejlepší k výchově dětí?

• Jak se z příběhu stane „virál“?

• O čem byste měli mluvit na prvním rande, jestliže chcete,

aby nebylo poslední?

... a mnohem, mnohem víc.

Ale než se k tomu dostaneme, musíme probrat jednu základ‑

ní otázku: K čemu nám vůbec data jsou? Při této příležitosti

bych vám rád představil svoji babičku.

První část

velká

a malá

data

39

1

vaše chybná intuice

Když je vám třiatřicet a na posledních několik oslav Díkůvzdání

jste dorazili sami, je velice pravděpodobné, že se začne probí‑

rat otázka výběru ideálního partnera. A všichni k tomu mají co

říct.

„Seth potřebuje holku, co bude stejně trhlá jako on,“ domní‑

vá se moje sestra.

„Neblázni! Potřebuje normální holku, která to bude vyvažo‑

vat,“ oponuje můj bratr.

„Seth není potrhlý,“ brání mě moje matka.

„No to mě podrž! Jistě že je Seth potrhlý,“ přidá se táta.

Zničehonic se tichým hlasem ozve moje nesmělá babička,

která byla jinak v průběhu večeře potichu. Hlučné agresivní

newyorské hlasy umlknou a všechny zraky se upřou na tu ma‑

lou starou paní s krátkými zlatými vlasy a stále patrnou stopou

východoevropského přízvuku. „Sethe, ty potřebuješ milou hol‑

ku. Ne moc hezkou. Hlavně chytrou. Co to umí s lidmi. Spo‑

lečenskou, ať spolu můžete něco podnikat. Co má smysl pro

humor, protože ten ty máš taky.“ velká a malá daTa

Jak je možné, že si rada této staré ženy okamžitě vynutila

pozornost a respekt celé rodiny? Moje osmaosmdesátiletá ba‑ bička toho v životě zažila víc než kdokoli jiný, kdo tehdy seděl

u našeho stolu. Viděla spoustu manželství, funkčních i nefunkč‑

ních. A za ta léta vypozorovala řadu vlastností, které přispívají k úspěšnému vztahu. Tehdy u té slavnostní tabule měla moje babička přístup k největšímu souboru dat, a mohla tak nejlíp

zodpovědět danou otázku. Moje babička byla Big Data.

V této knize bych rád demystifikoval analýzu dat. Ať se vám to

líbí, nebo ne, data hrají v našem životě čím dál větší roli a jsou

stále důležitější. Zpravodajské redakce mají v dnešní době celá

oddělení, která se věnují práci s daty. Firmy zaměstnávají týmy,

jejichž jediným úkolem je analyzovat data. Investoři sypou mi‑

liony dolarů do začínajících podniků, jen když mohou skladovat

větší množství dat. I když se nikdy nenaučíte, jak provést regres‑

ní analýzu nebo jak vypočítat interval spolehlivosti, velkému

množství dat se stejně nevyhnete — na stránkách této knihy,

na pracovní schůzce, nebo když postáváte ve firemní kuchyňce a zaslechnete nějaký drb.

Mnoho lidí vývoj tímto směrem děsí. Z dat mají obavy a ve

světě čísel se ztrácejí. Myslí si, že kvantitativní pohled na náš

svět je pro pár vyvolených, logicky myslících géniů, ale roz‑

hodně nic pro ně. Jakmile narazí na nějaké cifry, ihned jsou připraveni obrátit list, ukončit pracovní schůzku nebo změnit téma hovoru.

Já se však v oblasti analýzy dat pohybuji už deset let a měl

jsem to štěstí, že jsem se mohl setkat s řadou špiček v tomto

oboru. A jedna z nejdůležitějších věcí, které jsem se naučil, je

následující: správné vědecké zpracování dat je mnohem snazší,

než si lidé myslí. Ty nejlepší metodologie jsou dokonce překva‑ pivě intuitivní.

1


vaše chybNá iNTuice 41

Co dělá z vědeckého zpracování dat intuitivní záležitost?

Základem je objevit nějaký opakující se vzorec a dokázat před‑

povědět, jak jedna proměnná ovlivní druhou. Takové věci lidé

dělají neustále.

Jen si vzpomeňte, jak mi babička radila ohledně mých vzta‑

hů. Dokázala zpracovat a využít obrovskou databázi vztahů, kterou si v průběhu svého téměř století trvajícího života na‑ hrál její mozek. Byly to příběhy, které slyšela od své rodiny, přátel a známých. Svoji analýzu omezila na vzorek vztahů, ve kterých figuroval muž se stejnými vlastnostmi, jaké mám já:

citlivá povaha, sklon k izolaci, smysl pro humor. Dále se za‑ měřila na klíčové povahové rysy jeho partnerky: jestli je hodná,

jak je chytrá a pohledná. Zjistila, zda a jak tyto klíčové vlast‑

nosti partnerky korelují s klíčovými atributy vztahu, tedy jde‑li

o fungující vztah. A nakonec podala svoji zprávu o výsledcích

analýzy. Jinak řečeno, objevila ve svých datech opakující se

vzorec a předpověděla, jak jedna proměnná ovlivní druhou.

Moje babička je zkrátka odborník na zpracování dat.

I vy jste takovými odborníky. Když jste byli malí, všimli jste

si, že kdykoli zapláčete, přitáhnete tím matčinu pozornost. To

je zpracování dat. Jakmile jste dospěli, všimli jste si, že když si

příliš často stěžujete, lidé se vám začnou vyhýbat. I to je zpra‑

cování dat. Když se vám začnou všichni vyhýbat, jste z toho

smutní. Když jste smutní, nejste příliš přátelští. Když jste míň přátelští, lidé se vám vyhýbají ještě víc. Data. Data. Data.

Vzhledem k tomu, že práce s daty je tak přirozená věc, došlo

mi, že ty nejlepší studie zpracovávající velká data může pocho‑ pit každý inteligentní člověk. Pokud nějaké studii nerozumíte, problém je pravděpodobně v ní, ne ve vás.

Chcete d



       
Knihkupectví Knihy.ABZ.cz – online prodej | ABZ Knihy, a.s.