1 / 21

Big Data & Clouding Computing

Big Data & Clouding Computing. A 반 60072343 송영호 60072379 최승준. 기존의 데이터베이스나 아키텍처가 저장 , 관리 , 분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합 또 는 이 거대한 규모의 데이터를 분석하는 기법을 뜻한다 . 인터넷과 각종 센서의 발달로 유동하는 데이터의 양이 증가함으로써 나타남 .

suzuki
Download Presentation

Big Data & Clouding Computing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Big Data&Clouding Computing A반 60072343 송영호 60072379 최승준

  2. 기존의 데이터베이스나 아키텍처가 저장, 관리, 분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합 또는 이 거대한 규모의 데이터를 분석하는 기법을 뜻한다. • 인터넷과 각종 센서의 발달로 유동하는 데이터의 양이 증가함으로써 나타남. • 다양한 종류의 데이터의 생성·수집·분석·표현을 그 특징으로 다변화된 현대 사회를 더욱 정확하게 예측하게 하며, 다양한 분야에 걸쳐 과거에 불가능했던 기술을 실현할 수 있는 가능성을 가져다준다. What is a Big Data?

  3. 데이터 양(Volume) • 단순 저장되는 물리적 데이터 양의 증가뿐만 아니라 이를 분석 및 처리에 어려움이 따르는 네트워크 데이터의 급속한 증가. • 데이터 속도(Velocity) • 빅 데이터는 데이터의 실시간 처리 및 장기적 접근을 요구한다. • 데이터 다양성(Variety) -데이터베이스스키마를 포함하는 반정형 데이터를 이용한 분석뿐만이 아닌 소셜 미디어 데이터나 로그파일과 같은 비정형 데이터도 처리할 수 있는 능력을 요구한다. Big Data 특징

  4. Text Mining 비/반정형 텍스트 데이터에서 자연언어 처리 기술에 기반하여 유용한 정보를 추출, 가공하는 기술 • 평판 분석(Opinion Mining) 소셜미디어 등의 정형/비정형 텍스트의 선호도를 판별하는 기술 • 소셜 네트워크 분석(Social Network Analysis) 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로사용자의 명성 및 영향력을 측정하는 기술 • 군집 분석(Cluster Analysis) 비슷한 특성을 지닌 개체를 합쳐가면서 최종적으로 유사특성의 군을 발굴하는데 사용 Big Data 분석 기술

  5. 대한민국 19대 총선(국회의원 선거) • 중앙선거관리위원회는 19대 총선부터 소셜 네트워크 등 인터넷 상의 선거운동을 허용하였다. 이에 따라 소셜 미디어에서의 선거 관련 데이터가 급증하였고, 2010년 5회 지방 선거 및 2011년 재보궐선거에서소셜 네트워크의 중요성을 확인한 정당들 또한 그 활용에 주목했다. 또한 여론 조사 기관들은 기존 여론조사 방식으로 예측한 실제 투표 결과와의 큰 차이를 보완하고자, 빅 데이터를 활용한 SNS 여론 분석을 시행했다. 하지만 SNS 이용자의 대다수인 20~30대가 수도권에 밀집되어 있기에 수도권에 한정하여 일치하는 한계를 보였다. Big Data 활용사례(1)

  6. 구글 번역 • 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여 번역시 유사한 어구를 데이터베이스에서 추론해나가는 통계적 기법을 개발하였다. 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템을 개발한 IBM의 자동 번역프로그램은 실패했지만, 엄엄청난 양의 빅 데이터를 이용한 구글 번역기는 번역의 질과 정확도에 차이를 보여 크게 성공하였다. Big Data 활용사례(2)

  7. 인터넷 기반(Cloud)의 컴퓨팅(Computing)기술을 의미한다. • 인터넷 상의 유틸리티 데이터 서버에 프로그램을 두고 그때그때 컴퓨터나 휴대폰 등에 불러와서 사용하는 웹에 기반한 소프트웨어 서비스 What is a Cloud Computiong?

  8. 컴퓨터 네트워크 구성도에서 인터넷을 구름으로 표현한다.(구름은 숨겨진 복잡한 인프라 구조를 의미) • 사용자는 이러한 복잡한 인프라 구조를 알지 못해도 Cloud Computing을 이용할 수 있다. What is a Cloud Computiong?

  9. 초기 구입 비용과 비용지출이 적으며휴대성이 높다. • 컴퓨터 가용성이 높다. 이러한 높은 가용성은 IT 전략과도 일치한다. • 다양한 기기를 단말기로 사용하는 것이 가능하며, 서비스를 통한 일치된 사용자 환경을 구현할 수 있다. • 사용자의 데이터를 신뢰성 높은 서버에 안전하게 보관할 수 있다. Cloud Computing 장점

  10. 서버가 공격당할 경우 개인정보가 유출될 수 있다. • 재해나 사고 등으로 서버 데이터가 손상되면 백업하지 않은 데이터를 영구손실할 수 있다. • 사용자가 원하는 애플리케이션을 설치에 제약이 심하거나, 새로운 애플리케이션을 지원하지 않는다. • 인터넷 환경이 양호하지 않으면 서비스를 이용하는데 지장이 있을 수 있다. Cloud Computing 단점

  11. 공용 클라우드(Public Cloud) -아마존 웹 서비스와 같은 외부 서비스 제공가 관리하며, 인터넷을 통해 접근하거나 일반적인 공적 업무를 위해 이용된다. • 사설 클라우드(Private Cloud) -네트워크 소유자나 데이터 센터에서 가상화 서비스와 함께 서버, 저장, 네트워크 데이터와 애플리케이션을 묶어 둔다. 그래서 회사 내부의 이용자들이 공유할 수 있도록 하는 것이다. 공용 Cloud & 사설 Cloud

  12. Apple iCloud

  13. 확장성(Scalability) - 클라우드의 가장 핵심적인 장점인 사용자 시스템의 부하에 따라 신축성 있게 가상시스템을 확장할 수 있어야 한다. • 가용성(Availability) • 네트워크 소유자나 데이터 센터에서 가상화 서비스와 함께 서버, 저장, 네트워크 데이터와 애플리케이션을 묶어 둔다. 그래서 회사 내부의 이용자들이 공유할 수 있도록 하는 것이다. • 신뢰성(Reliability, Security) • 사용자의 데이터 보호는 물론, 해킹 침입에 대한 기술 및 자동 백업, 싱크, 복구 기능이 필요하다. • 활용률(Utilization) • 사용자보다는 서비스를 운영하는 차원에서의 필수적 요소이며, 에너지 절감 효과도 기대할 수 있다. • 이동성(Mobility) -중앙 집중 데이터에 대한 협력자들의 동시 업무 수행을 위해 이용자들의 이동성을 보장하여야 한다. Cloud Computing 고려사항

  14. Cloud라 불리는 것은 종종 가상서버로 요약된다. 사용량에 따라 대여 가능하고, 자기 자신을 일반 서버로 표현하는 컴퓨터 자원이다. 일반적으로 서비스로 제공되는 기반체계(IaaS)라 불리고, Rackspace Cloud나 Amazon EC2같은 플랫폼으로 제공된다. • IaaSCloud 서비스를 이용한다는 것은 모든 배포를 수동으로 해야 한다는 의미는 아니다. 자원 관리, 기반도구 자동화, 서버 설치 및 설정을 다루는 통함 프레임워크의 사용이 가능하다. Big Data & Cloud Computing

  15. IaaS를 사용하는 것은 어느 정도까지만 Big Data에 데려다 줄 뿐이다. 연산과 저장 자원의 생성을 다루지만, 더 높은 단계를 해결하기 위해서는 Hadoop등의 Big Data 설정 도구를 설치해야 한다. • 많은 Cloud 서비스들이 Big Data가 작동하는 애플리케이션 레이어를 제공한다. • 최근 Big Data플랫폼 서비스의 기본적 제공자는 Amazon, Google, Microsoft이다. Big Data & Cloud Computing

  16. Amazon 웹 서비스 • Hadoop을 위해 Amazon EC2를 사용하는 것은 초기에 Big Data를 적용한 곳에 널리 퍼져 있다. 그만큼 Amazon은 Big Data 처리 운영에 분명한 경험을 가지고 있다. • 2009년 Amazon은 확장 가능한 Hadoop서비스 호스팅을 제공하는 Elastic Map Reduce를 출시했다. • Amazon의 플랫폼에서 애플리케이션은 IaaS와 PaaS중 좋은 것만 고를 수 있다. • 조정 분산 컴퓨팅을 위한 Simple Queue Service, 관계형 데이터베이스 운영 등 Big Data와 관련 있는 많은 서비스를 제공한다. • Big Data 전문의 결과 Amazon의 고성능 컴퓨터 솔루션은 과학이나 기술 관련 애플리케이션에서 요구되는 대기율이 낮은 클러스터 컴퓨팅으로 조정되었다. Big Data & Cloud Computing

  17. Google • Google의 플랫폼을 쓰기 위해서는 API의 제한 안에서 작업할 필요가 있다. 잘 이용하면 Google 서비스에 적용하는 안정성, 튜딩, 성능 개선을 얻을 수 있다. • Big Data의 핵심인 BigQuery와 Prediction API를 제공하며, 각각 분석과 기계 학습 기능을 제공한다. 두 서비스는 Google의 웹 기반 컴퓨팅 비전에 일관성 있게 REST API를 통해 독점적으로 사용 가능하다. Big Data & Cloud Computing

  18. BigQuery : 1TB가 넘는 데이터셋에 대한 대화식 분석에 적합한 분석 데이터베이스. 익숙한 SQL 인터페이스를 제공하며, Apache Hive와 비교했을 때 속도가 더 빠르고, 탐사 데이터 분석에 좋다. 다만,데이터를 BigQuery로 스트리밍을 통해 보내는 것도 불가능하여 데이터를 최신으로 유지하려면 정기적인 데이터 입력이 필요하다. • Prediction API : 이 API를 사용하는 애플리케이션은 Google 시스템 안에서 운용되는 모델을 생성하고 훈련시켜서 작동한다. 한 번 훈련되면 이 모델은 스팸 탐지 같은 예측을 하기 위해 사용될 수 있다. 아직 초기 단계이기 때문에 더 많은 서비스간 통합이 필요하고 그들의 도구를 더욱 쉽게 쓸 수 있도록 발전할 시간이 필요하다. Big Data & Cloud Computing

  19. Microsoft • Windows 서버에 더해 Windows Azure에서 데이터 플랫폼을 제공함으로써, 현장 기반이나 Cloud 기반의 배포를 모두 같은 기술로 만드는 데 목표를 두고 있다. • Hadoop은 Microsoft의 Big Data 접근에서 가장 중심되는 기둥이고, 자체 데이터베이스와 경영 정보 도구의 생태계로 둘러싸여 있다. Big Data & Cloud Computing

  20. Big Data 플랫폼 비교 Big Data & Cloud Computing

  21. 결론 • Cloud 기반 Big Data 서비스는 오버헤드를 제거하고, 서버군을 설정하고 튜닝하며, 딱 쓴 만큼만 돈을 내면 되는 장점을 제공해준다. 다만 데이터를 옮기는 것은 느리고 비싸기 때문에 데이터 지역성이 가장 큰 문제가 될 것이다. • Cloud 서비스에서 Big Data는 아직 초기다. 아직은 Amazon만이 검증된 서비스를 제공하지만, Cloud 서비스 자체가 아직 초기 형태이고, 향후 표준화를 통해 점점 발전해 나갈 것이다. Big Data & Cloud Computing

More Related