AWS EMR - Amazon Elastic Map Reduce

Click here to load reader

download AWS EMR - Amazon Elastic Map Reduce

of 34

Transcript of AWS EMR - Amazon Elastic Map Reduce

  • 1. AWS EMR (ELASTIC MAP/REDUCE) Serkan ZAL Big Data Hackathon ubat 2014

2. erik Amazon EMR Nedir Amazon EMR Ana Bileenleri Amazon EMR zellikleri Amazon EMR Kullanm Yntemleri Instance Tipleri Cluster Tipleri Amazon EMR Node Tipleri Amazon EMR Mimarisi Amazon EMRn Web Arayz le Kullanm2 3. Hadoop-as-a-serviceMap-Reduce motoruDier aralar ile entegreEMR Nedir? leklenebilirAmazon servisleri ile entegreKolay konfigre edilebilir ve ynetilebilir 4. Amazon EMR Ana Bileenleri Amazon EC2 Esnek - Kapasite kolay bir ekilde arttrlp azaltlabilir. Biimlendirilebilir: Birok instance tipi (CPU, Memory, Storage),iletim sistemi ve yazlm paketi destekliyor Gvenilir: Her Amazon EC2 Regionda 99.95% kullanlabilirlik Dk Maliyet: Reserved Instance ve Spot Instanceorannda Amazon S3 1 bytedan 5 terabyte kadar veri tutan object yazlp okunabilir. Objectler bucketlar iinde tutulur. Tutulan veriler iin 99.999999999% dayankllk ve 99.99% devamllkiin tasarlanmtr. Veriler ifrelenerek tutulabilir ve veri upload/download ilemleri de gvenli balant stnden yaplabilir. 4 5. Amazon EMR zellikleri Web arayz, komut satr veya API ile kullanm 5kolayl sunar. Kolay bir ekilde Hadoop cluster kurma, ynetme, ve konfigre etme sunar. Distributed file system olarak kendi servisleri olan AWS S3 sunar. Fakat istenirse Hadoop HDFSde kullanlabilir. alan cluster ve joblar monitor edilebilip istenirse kapasiteleri deitirilebilir. Cluster istenilen zamanda veya joblar bittiinde kapatlabilir ve bylece sadece kullanld kadar cret denir. 6. Amazon EMR Kullanm Yntemleri Web Arayz console.aws.amazon.com Rest API HTTP requestleri ile kullanlr. Command Line Tools Komut satrndan girilen komutlar ile kullanlr. Programlama API Java .NET Ruby PHP Javascript (NodeJS iin) 6 7. Reserved Instance 1 ile 3 yllk sreler boyunca belirtilen saydaAmazon EC2 instance size ayrlr ve bu sre boyunca siz istemediiniz srece sizden alnamaz. Kullansanz da kullanmasanz da parasn dersiniz fakat normal durumda srekli olan kullanmla kyaslandnda farkl optimizasyon seviyelerine gre %65e kadar ucuza gelebilir. Srekli alacak instancelarn maliyet asndan reserved instance olarak seilmesi ok daha uygundur. 7 8. On Demand Instance Belirtilen sayda instance sizin iin alr ve sizistemediiniz srece sizden alnamaz. Kullanldnz kadar dersiniz. Kullanm sresi saat bazldr. Yani 5 dk kullanm ile 55 dk kullanmn size olan maliyeti ayndr. Ksa sreli alacak ve kesilmesi uygun olmayan ilerin yaplmas iin maliyet asndan ondemand instance seilmesi daha uygundur.8 9. Spot Instance Spot instancelar On-Demand ve Reserved9instancelara ek olarak sunulur ve mterilere hesaplama kapasitesi iin ek bir opsiyon salar. Spot Instance kullanabilmek iin mteriler o anda kulanlmamakta olan EC2 instancelar iin fiyat teklifi yaparlar. Teklif edilen fiyat o anda o instance iin belirlenmi Spot fiyatn at srece, teklif verilen instance tipi kullanlabilir. Spot fiyat periyodik olarak arz ve talebe gre deiir. Bu tip instancelar daha ok Anaytics, Big Data, Financial modeling and analysis, Image and Media encoding, Scientific Computing alanlarda kullanlmaktadr. 10. Cluster Tipleri Transient Cluster Clusterjob sresince var olur ve job bitincekapatlr. Alive Cluster Srekli ak halde bir cluster vardr ve joblar buclustera gnderilir. Joblar bittikten sonra cluster sonra gelecek joblar iin ayaktadr. Elastic Clusterbalangta belirli bir node says ile balatlr. Daha sonra manuel olarak yada otomatik olarak (sistemdeki CPU, Memory, Network gibi yk miktarn gz nne alarak) clusterdaki node says dinamik olarak arttrlp azaltlabilir. Cluster10 11. Amazon EMR Node Tipleri Cluster iinde 3 eit node (instance) tipivardr: Master Node Core Nodelar Task Nodelar11 12. Amazon EMR Mimarisi12 13. Master Node Amazon EMR clusterClusterdaki dier instancelar ynetir ve kontrol eder. Onlara i atar ve sonularn alr. Job Tracker bu nodeda alr.Master instance group Master NodeCore instance group 14. Core Nodes Amazon EMR clusterCore instancelar hem Data Node hem TaskTracker Node olarak alrlar. Yani hem veri deplolar, sunar hem de ana iin alt ksmlarn yapan tasklar altrrlar.Master instance group Master NodeHDFSHDFSCore instance group 15. Task Nodes Amazon EMR clusterSistemdeki yk miktarna gre sonradan eklenip karlabilir. Data Node olarak grev yapmazlar ve veri tutmazlar. Sadece TaskTracker Node olarak grev yapalar ve ana iin alt ksmlar olan tasklar altrrlar.Master instance group Master NodeHDFSHDFSCore instance group 16. S3 Amazon EMR clusterDistributed file system olarak ilenilecek veriyi ve oluan sonu verisini tutar.Master instance group Master NodeHDFSHDFSCore instance groupAmazon S3 17. leyi Amazon EMR clusterMaster Node slave olarak alan Core Node ve Task Node lar ynetir, onlara alt ileri atar ve onlar izler. Tm slave nodelarn hepsi ilerini bitirdii zaman kendisini aran sisteme grevin bittiini haber eder.Master instance group Master NodeHDFSHDFSCore instance groupAmazon S3 18. Amazon EMRn Web Arayz le Kullanm console.aws.amazon.com/elasticmapreduce18 19. AWS Console19 20. Amazon EMR Console20 21. Cluster Configuration21 22. Software Configuration22 23. Hardware Configuration23 24. Security And Access24 25. Job Tipi Seimi25 26. Hadoop Jarnn Tanmlanmas26 27. Cluster Oluturma27 28. Job Balyor28 29. Job Sonular29 30. Job Sonucunun ndirilmesi - 130 31. Job Sonucunun ndirilmesi - 231 32. Clustern Kapatlmas32 33. Job Sonular33 34. Teekkrler34