OWF12/BIG DATA OWF OpenSearchServer light

17
Le moteur de recherche, inspirateur technologique du Big Data ? Emmanuel Keller, CEO OpenSearchServer

Transcript of OWF12/BIG DATA OWF OpenSearchServer light

Page 1: OWF12/BIG DATA OWF OpenSearchServer light

Le  moteur  de  recherche,  inspirateur  technologique  

du  Big  Data  ?    

Emmanuel  Keller,  CEO  OpenSearchServer  

Page 2: OWF12/BIG DATA OWF OpenSearchServer light

Ainsi  naquît  Google…  

Avril  1998  hEp://infolab.stanford.edu/pub/papers/google.pdf  

Page 3: OWF12/BIG DATA OWF OpenSearchServer light

Google  1.0  

24  millions  de  pages  «  It  is  foreseeable  that  by  the  year  2000,  a  comprehensive  index  of  the  Web  will  contain  over  a  billion  documents.  »  PageRank  «  Also,  a  PageRank  for  26  million  web  pages  can  be  computed  in  a  few  hours  on  a  medium  size  workstaFon.  »    

Page 4: OWF12/BIG DATA OWF OpenSearchServer light

Google  1.0  

«  We  intend  to  speed  up  Google  considerably  through  distribuFon  and  hardware,  soHware,  and  algorithmic  improvements  »  

1997  -­‐  IBM  Deskstar  16GP  

Page 5: OWF12/BIG DATA OWF OpenSearchServer light

Google  1.0  

Page 6: OWF12/BIG DATA OWF OpenSearchServer light

Rappel  

Informa5que  n.f.    

Science  du  traitement  automaFque  et  raFonnel  de  l'informaFon  meLant  en  œuvre  des  matériels  et  des  logiciels.  

Page 7: OWF12/BIG DATA OWF OpenSearchServer light

L’art  de  jongler…  

Page 8: OWF12/BIG DATA OWF OpenSearchServer light

…c’est  pas  nouveau  

•  Bayer,  Rudolf;  McCreight,  E.  (July  1970),  Organiza\on  and  Maintenance  of  Large  Ordered  Indices,  Mathema\cal  

•  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for  Virtual  Memory  »  

Page 9: OWF12/BIG DATA OWF OpenSearchServer light

La  structure  en  arbre  

Réduire  le  nombre  de  lectures  physiques  sur  le  disque  dur  

Page 10: OWF12/BIG DATA OWF OpenSearchServer light

Une  forêt  d’arbres  

•  Un  système  de  fichiers  (FAT,  NTFS,  EXT3,  ZFS)  est  avant  tout  une  structure  en  arbre.  

•  Les  bases  de  données  basent  leurs  index  sur  la  taille  des  blocs  du  disque  dur  

•  La  mémoire  virtuelle  

Page 11: OWF12/BIG DATA OWF OpenSearchServer light

Quand  au  calcul  

•  Les  fondeurs  peinent  à  suivre  la  loi  de  Moore:  la  technologie  du  silicium  aEeint  ses  limites  

•  Les  cœurs  mul\ples  compliquent  les  développements:  obliga\on  d’intégrer  le  parallélisme  

Page 12: OWF12/BIG DATA OWF OpenSearchServer light

Distributed  compu\ng  

Page 13: OWF12/BIG DATA OWF OpenSearchServer light

Google  2.0  MapReduce:  «  Simplified  Data  Processing  on  Large  Clusters  »  By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)  San  Francisco,  CA,  December,  2004  

hEp://research.google.com/archive/mapreduce.html  

 Hadoop:  Implémenta\on  open  source  sous  licence  Apache  2.0    

Page 14: OWF12/BIG DATA OWF OpenSearchServer light

Map  Reduce  

Source:  hEp://www.gridgainsystems.com  

MAP  Répar\r  la  charge  sur  plusieurs  nœuds    (WORK)  Chaque  nœud  travaille  sur  une  par\e  des  données    REDUCE  Le  résultat  de  chaque  nœud  est  consolidé  pour  cons\tuer  le  résultat  final  

Page 15: OWF12/BIG DATA OWF OpenSearchServer light

No  SQL  Database  

Redis,  HBase,  Cassandra,  Mongo  DB,  MemCache  DB,  Berkeley  DB,  Big  Table,…  

•  Une  approche  simplifiée  de  l’accès  aux  données  •  Principe  Clé  /  Valeur  •  Se  «  cloudise  »  très  bien  

Page 16: OWF12/BIG DATA OWF OpenSearchServer light

Vers  un  nouveau  paradigme  •  Applica\ons  (Pentaho)  •  JAVA,  C  /  C++  ?  L  •  API,  API,  API,  API…  •  Système  de  fichiers  – XtreemFS  – Sector/Sphere  – Oracle  Clustered  File  System  (GPL  !!!!)  

– Disques  SSD  

Page 17: OWF12/BIG DATA OWF OpenSearchServer light

Q    &    A  

Merci  pour  votre  aEen\on    

ekeller@open-­‐search-­‐server.com