1 / 39

SocsciBot 3

SocSciBot 는 연구 목적으로 만들어진 웹 사이트 crawler 이다 . 지원 프로그램 SocSciBot Tools 와 Cyclist 와 함께 , 사이트에서 링크 분석을 실행하거나 사이트의 수집 , 혹은 사이트 수집에 관련된 검색 엔진을 작동시키는데 사용될 수 있다 . 이 프로그램은 또한 어떻게 링크 분석과 검색 엔진이 작동하는지를 설명하는 강의에 사용 되어 질 수 있다. 본 매뉴얼은 SocSciBot 3 (http://socscibot.wlv.ac.uk/) 한글버전입니다 .

lamont
Download Presentation

SocsciBot 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SocSciBot 는 연구 목적으로 만들어진 웹 사이트 crawler이다. 지원 프로그램 SocSciBot Tools 와 Cyclist 와 함께, 사이트에서 링크 분석을 실행하거나 사이트의 수집, 혹은 사이트 수집에 관련된 검색 엔진을 작동시키는데 사용될 수 있다. 이 프로그램은 또한 어떻게 링크 분석과 검색 엔진이 작동하는지를 설명하는 강의에 사용 되어 질 수 있다. 본 매뉴얼은 SocSciBot 3 (http://socscibot.wlv.ac.uk/) 한글버전입니다. 매뉴얼 작성에 도움을 준 최명군과 김동일 학생에게 고마움을 표합니다 박한우 (영남대학교 언론정보학과 , http://www.hanpark.net ) SocsciBot 3 Link crawler for the social sciences New in February 2007 : Wiki-compatible version of SocSciBot 3 available

  2. 소프트웨어는 비상업적 목적으로 사용된다. 우리는 또한 이것의 사용에 의해 나타나는 어떤 손해에 대해 책임을 지지 않는다. 그리고 다운로드 된 프로그램의 작동에 의해 발생한 다른 프로그램이나 데이터의 손실에 대해 책임지지 않는다. • 사용자는 프로그램에서 요구되는 정확한 e-mail 주소를 기입한다. 그리고 사용자의 웹 crawling 에 대해 웹 마스터가 불만을 나타낼 경우에 대비해서 crawling 이 되는 기간 동안 e-mail 을 체크한다. SocSciBot 은 자동적으로 웹 마스터에게 사용자가 crawling 하고 있고 crawling 을 중지하기 위해 웹 마스터가 사용자에게 웹 마스터가 사용자에게 말할 수 있도록 e-mail을 기입하는 옵션을 가진다. • 사용자는 사용하고 있는 대역폭의 여유가 없는 기관의 웹사이트를 crawl 하기 위해 SocSciBot3 을 사용하지 않는다(e.g. 후진국들). • 사용자는 웹 서버들을 반복해서 crawling 함으로 인해 웹 서버를 오버로드 하지 않아야 한다(e.g. 메일). • 사용자는 SocSciBot3 의 copy 가 가끔 경고 없이 연결이 끊어질 수 있는 것을 받아들여야 한다. 예를 들면 만약에 SocSciBot3 의 사용에 웹 마스트로부터 어떤 불만을 느껴 연결을 끊는 경우가 있다. • 사용자는 SocSciBot3의 사용이 가끔 둔해질 것이라는 것을 받아들여야 한다. 이것은 비윤리적 방식으로 사용되지 않도록 하기 위한 것이거나 불만의 원인을 확인하기 위한 것이다. 비윤리적인 사용의 경우를 제외하고, 이 정보는 제 3자에게 나타나지 않을 것이다. SocSciBot and associated software : 사용 조건

  3. EXIT SocsciBot 3 LIST SocSciBot, ScoSciBot Tools and Cyclist 설치 및 사용 ………………. 4 웹사이트 Crawl 하기 ……………….................................................................. 4 조사한 결과에 대한 기초적인 보고서 보기 ……………………………………… 15 Pajek 을 이용하여 네트워크 다이어그램 보기 …………………………………. 21 Mini Link Analysis Research Project Case study ……………….….... 30 보길 원하는 부분을 클릭하면 바로 넘어갈 것이다.

  4. 이 설명서 소개는 링크 데이터를 분석하기 위한 초기 crawling 에서 매우 소규모 SocSciBot 프로젝트의 모든 단계를 통해 이루어진다. 이 프로젝트를 실행하는 것은 SocSciBot 이 무엇을 할 수 있는지를 배우는 가장 쉬운 단계이다. LIST EXIT SocSciBot, ScoSciBot Tools and Cyclist 설치 및 사용 ① ─ 웹사이트 Crawl 하기

  5. 단계01 • SocSciBot 3 홈페이지(http://socscibot.wlv.ac.uk)에 가서 프로그램 3개를 다운받아 자신이 원하는 곳에 저장을 한다.

  6. 단계02 • 만약 사용자가 SocSciBot 데이터와 함께 네트워크 다이어그램을 제공받기를 원한다면, 사용자는 Pajek (http://vlado.fmf.uni-lj.si/pub/networks/pajek)을 설치하여야 한다. 그리고 SocSciBot 은 프로그램이 시작될 때 Pajek을 찾기 때문에, 사용자는 SocSciBot을 시작하기 전에 Pajek 을 설치하는 것을 추천한다.

  7. 주의점 단계03 • 설치 작업이 끝난 후, SocSciBot 을 실행시키면 다음과 같은 창이 뜬다. ①번란에는 데이터를 저장하기 위한 폴더를 지정해 준다. 그리고 ②번란에는 윤리적인 수행임을 알리거나 웹 마스터가 crawling하는 것에 대해 불만족을 나타내는지에 대한 문제를 확인하는데 사용자에게 도움을 주기 위해 자신의 이메일 주소를 입력한다. ① ② • SocSciBot 과 나중에 사용할 SocSciBot Tools 의 데이터 저장 폴더(crawler_data)의 위치는 동일하게 설정 해주어야 한다. 왜냐하면 SocSciBot 의 프로젝트를 SocSciBot Tools 에서 자동적으로 불러 들이기 위해서이다. 만약 다른 폴더를 사용하게 되면, 사용자가 나중에 경로를 다시 지정해줘야 하는 번거로움이 있을 것이다.

  8. 단계04 • 앞 단계를 완료하고 OK버튼을 누루면 Pajek과 Excel을 확인하는 창이 뜰 것이다. 만약 프로그램을 가지고 있다면 예(Y)를 누룬 뒤 Pajek과 Excel의 exe파일을 찾아 지정해준다. 참고로, 일반적으로, Pajek의 경로는 C:\Pajek\Pajek\Pajek.exe, Excel은 C:\Program Files\Microsoft Office\Office10\EXCEL.exe 이다.

  9. 단계05 • 다음 다이아로그 박스, Wizard Step 1 에 새로운 프로젝트를 만들어라. 우선 small test라고 입력한 뒤 Start new project 버튼을 클릭하라. 그러면 새로운 두 개의 질문 창이 차례로 뜨게 되는데, 모든 질문에 No를 클릭하라. 이것은 사용자가 전문가 수준이 되기 전에는 거의 필요로 하지 않는 확장된 데이터 클리닝 장치이다.

  10. 단계06 • Wizard Step 2 다이아로그 박스에서 ①번란에 http://linkanalysis.wlv.ac.uk/ 를 입력하라. 그리고 ②번, Start a new crawl of this site 버튼을 클릭하라. ① ②

  11. 단계07 • Crawl 를 할 모든 준비가 완료되었다. Crawl Site 버튼을 클릭하라. 사이트 규모에 따라서 crawl 을 하는 시간이 길수도 있고 짧을 수도 있다는 것을 유념하라. 사용자는 crawl 하는 동안 윗부분의 타이틀 바에서 crawl 에 대한 정보를 읽을 수 있다.

  12. 단계08 • Crawl 이 완료 되었을 때 SocSciBot 을 끝내기 위해 Yes 를 클릭하라. 사용자는 이제 http://linkanalysis.wlv.ac.uk사이트의 모든 페이지를 crawl 했다. 간단한 분석을 시행하기 전에, 2개 이상의 사이트를 더 crawl 해보자.

  13. 단계09 • SocScibot을 다시 시작한다. Wizard Step 2 다이아로그 박스에서 전에 생성한 small test를 클릭한다.

  14. 단계10 • Crawl 을 위해 두 번째 사이트의 URL(http://cybermetrics.wlv.ac.uk/)을 입력하라. 그리고 Start a new crawl of this site 버튼을 클릭하라. 다음 화면에서 Crawl 사이트 버튼을 클릭하고 작업이 완료될 때까지 기다려라. 이와 같은 방법으로 세 번째 사이트(http://socscibot.wlv.ac.uk/)를 crawl 한다.

  15. 이 설명서 소개는 링크 데이터를 분석하기 위한 초기 crawling 에서 매우 소규모 SocSciBot 프로젝트의 모든 단계를 통해 이루어진다. 이 프로젝트를 실행하는 것은 SocSciBot 이 무엇을 할 수 있는지를 배우는 가장 쉬운 단계이다. LIST EXIT SocSciBot, ScoSciBot Tools and Cyclist 설치 및 사용 ② ─ 조사한 결과에 대한 기초적인 보고서 보기

  16. 단계01 • crawl 하여 얻은 데이터를 분석하기 위해 SocSciBot Tools 를 시작하라. 그러면 프로젝트를 선택하는 창이 뜨게 되는데, 전 단계에서 이미 만들었던 small test 클릭한다.

  17. 단계02 • small test를 클릭하면 다음과 같은 다이아로그 박스가 열리게 된다. 여기에서 Use this project 버튼을 선택하라. 그러면 새로운 상자가 뜨게 되는데, 여기에서 사용자는 일련의 기본적 보고들을 보길 원하든 원하지 않든 상관없이 질문에 Yes라고 답하라.

  18. 단계03 • 사용자는 화면의 중앙에 메뉴를 따라 내려가면서 보고서들을 볼 수 있다. All external links 를 클릭하라. 더 많은 정보가 화면의 오른쪽에 표시된다. 그리고 crawl 대상이 된 사이트에 포함된 외부 URL 페이지들의 리스트를 보려면 View report를 클릭하라(아웃링크 사이트). 그리고 ①과 같이 http:// 와 www 은 공간에 저장할 때 잘려서 정상적으로 URL이 주어지지 않는다는 것을 주지하라. ①

  19. 단계04 • 주요 보고서는 ADM count summary 이다. Excel 을 가지고 있다면 View in Excel, 없다면 View report 버튼을 클릭하라. 이것은 프로젝트에서 모든 사이트들에서부터 각각의 외부 사이트에 설정한 링크의 개수를 센다. 대다수의 사람들은 인링크와 아웃링크를 나타내는 ADM 파일만 필요로 할 것이다.

  20. 단계05 • View in Excel 버튼을 클릭하면 다음과 같은 창이 뜨게 된다. 이 표를 읽는 방법을 그림을 보며 설명하겠다. 예를 들면, linkanalysis.wlv.ac.uk 열(row)의 2개의 행(column)을 읽으면 다른 두 개의 사이트로부터 linkanalysis.wlv.ac.uk 로 17개의 링크가 있다. 그러나 linkanalysis.wlv.ac.uk 로부터 다른 두 개의 사이트로 7개의 링크가 있다.

  21. 이 설명서 소개는 링크 데이터를 분석하기 위한 초기 crawling 에서 매우 소규모 SocSciBot 프로젝트의 모든 단계를 통해 이루어진다. 이 프로젝트를 실행하는 것은 SocSciBot 이 무엇을 할 수 있는지를 배우는 가장 쉬운 단계이다. LIST EXIT SocSciBot, ScoSciBot Tools and Cyclist 설치 및 사용 ③ ─ Pajek 을 이용하여 네트워크 다이어그램 보기

  22. 단계01 • 사용자가 시스템에 Pajek 을 설치했으면 Pajek 이 만들어내는 네트워크 다이어그램을 볼 수 있다. 가운데에 있는 드랍박스에서 Pajek matrix for the whole project (with current options) 옵션을 선택하라.

  23. 단계02 • SocSciBot Tools 에서 single combined.full 을 클릭하라. 그러면 .net의 확장자를 가진 네트워크 데이터는 Pajek 으로 저장된다.

  24. 단계03 • 네트워크를 보려면 Draw 메뉴에서 Draw 를 선택하라. 그러면 네트워크 다이어그램을 볼 수 있다. 만약 라벨 (사이트 도메인 이름)이 붙어있지 않다면 Options 메뉴에서 Mark Vertices Using – Labels 를 선택하라. 나타난 다이어그램은 internal site 링크를 제외한 inter-site 링크의 네트워크를 보여준다.

  25. 단계04 • 네트워크 다이어그램의 개선된 레이아웃을 가지기 위해선 Layout 메뉴에서 Energy – Kamada_Kawai – Free 의 Kamada-Kawai 포지셔닝 알로리즘을 선택하고 결과를 확인하라. 개선 전 개선 후

  26. 단계05 • 만약에 사용자가 inter-site 연결보다 오히려 각각의 개개 사이트의 다이어그램을 보고 싶다면, 이것 또한 가능하다. SocSciBot 에서 이것을 실행하기 위해선 File 메뉴에서 Options and Subproject and ADM selection wizard 를 선택하고, Site self-links 옵션에만 체크를 한다.

  27. 단계06 • 드랍박스에서 Pajek matrices for each individual site (with current options) 을 선택하고 클릭해서 파일을 보라. 사용자는 개개의 사이트 네트워크를 얻을 수 있다. 우선은 cybermetrics.wlv.ac.uk-links structure ID 39141 을 클릭해보겠다. 그러면 cybermetrics links가 .net 파일로 Pajek 에 저장이 된 것을 볼 수가 있다. 이젠 네트워크를 한 번 살펴보자.

  28. 개선 전 개선 후 단계07 • 왼쪽은 Draw 명령어를 통하여 네트워크를 바로 얻은 결과이고, 오른쪽은 Kamada-Kawai 알고리즘으로 다시 그려진 네트워크이다. 두 가지 모두 해석하기 어려울 정도로 많은 선들이 있다.

  29. Cyclist 사용 설명 부분

  30. LIST EXIT Mini Link Analysis Research ProjectCase study ─ Data cleansing 이 설명서 소개는 아주 작은 가상 링크 분석 리서치 프로젝트 단계에 사용된다. 이 프로젝트는 표준 리서치 프로젝트를 위해 SocSciBot 와 SocSciBot Tools 를 어떻게 사용하는지를 배우기에 가장 쉬운 방법을 사용자에게 제공해 주도록 고안되었다.

  31. 단계01 • 기존에 있던 프로젝트 이름을 클릭하는 대신에, 하단에 있는 박스에 Sample Research Project 를 기입하고 Start new project 를 클릭하라.

  32. 단계02 • 그리고 그림과 같이 보기의 4개 사이트들을 crawl 하라. 보기 • cba.scit.wlv.ac.uk • cybermetrics.wlv.ac.uk • linkanalysis.wlv.ac.uk • www.scit.wlv.ac.uk

  33. 단계03 • SocSciBot Tools 를 실행시켜 새로운 프로젝트 Sample Research Project 를 선택하라.

  34. 단계04 • SocSciBot Tools 메인 보고서 메뉴에서, 데이터 셋에 가장 목표에 적합한 페이지에 대한 두 가지 보고서가 있다: 데이터 셋에서 사이트들 사이의 모든 링크 리스트인 Known external links with counts 와 데이터 셋의 외부 사이트 링크의 리스트인 Unknown external links with counts 이다. 클릭해서 View report 버튼을 클릭해서 이들 두 보고서를 보라. • 처음에 데이터 분석의 가장 시간을 많이 소비하는 단계는 데이터 셋에서 변칙들 (anomalies)을 확인하고 제거하는 것이다. 이상적으로 다운로드 된 각각의 페이지는 사용자의 리서치 프로젝트를 위한 항목과 적합한 것인지 확인하는 과정을 거칠 필요가 있다. 문제들은 만약 한 출처로부터 많은 링크가 있다면 발생하기 때문에, 복사된 페이지를 찾는 가장 좋은 방법은 가장 목표에 적합한 페이지를 확인하면서 시작하는 것이다.

  35. Known external links with counts 보고서 Unknown external links with counts 보고서 단계05 • 두 개의 보고서에서 사용자는 페이지가 매우 높게 목표된 페이지가 없다는 것을 알게 된다. 그러나 리스트의 하나를 조사해보면 사용자는 ①과 같이 .co.uk 사이트들에 링크 되어있는 이상하게 긴 리스트를 보게 될 것이다. 이 이상한 링크 URL들 중 .pma.co.uk 를 하나 선택하라. ① • 변칙을 알아내는 것은 중요하다. 왜냐하면 만약에 분석이 이것들을 포함한다면 거기엔 수많은 링크들이 포함되어 있기 때문이다. 결정을 위해, 사용자는 페이지들을 방문할 필요가 있을 것이다. 그리고 왜 이 링크들이 만들어졌는지 알아 볼 필요가 있다. 사용자는 그것들을 찾기 위해 수동으로 링크 구조 파일들을 조사해야만 할 것이다.

  36. 단계06 • 링크 구조 파일을 보기 위해 드랍박스에서 Original link structure files for the whole project 를 선택하라. 차례로 각각의 파일을 클릭하라. 그러면 그림과 같이 노트패드는 사이트의 링크 구조를 보여줄 것이다.

  37. 단계07 • 파일은 각각의 페이지의 URL을 포함한다(http:// 나 http://www 없이). 그리고 각각의 링크 URL을 포함한다. 사용자는 이 파일들 중에서 .pma.co.uk 라는 URL 을 찾아야 한다. 스크롤을 내리면, 사용자는 페이지 .scit.wlv.ac.uk/~cm1993/penn/p.htm 로부터 온 URL 을 찾을 것이다. • Tip URL 검색을 위해 노트패드의 Find 기능을 사용하라. http://www.scit.wlv.ac.uk/~cm1993/penn/p.htm

  38. 단계08 • 만약에 사용자가 이 페이지를 방문하면 사용자는 Penn UK Business Directory 로 알려진 아주 큰 사이트의 부분을 보게 될 것이다. 사이트는 단순히 UK .co.uk 웹사이트의 긴 리스트를 가지고 있다. 사용자는 페이지들의 이 세트가 데이터 세트에 포함되지 않아야 한다고 가정해야 한다. 왜냐하면 다른 위치에서 사이트의 복사본이 있기 때문이다. 이 사이트는 SocSciBot Tool 의 데이터 정화 기능을 사용하여 배제시킬 수 있습니다.

  39. 단계09 • 8단계에서 보여진 사이트인 Penn UK Business Directory 는 SocSciBot Tools의 Data Cleansing 기능을 사용하여 배제시킬 수 있다. 화면의 아래에서 DATA CLEANSING 버튼을 클릭하라. 노트패드가 뜨는데 아랫줄에 그림처럼 [보기]에 있는 두 줄을 추가해야만 한다. 이제 파일을 저장하고 Yes 버튼을 클릭하라. 그러면 Penn UK 페이지들은 데이터 세트에서 제거 될 것이다. 그리고 기초 통계들은 재계산될 것이다. 보기 [scit.wlv.ac.uk] http://www.scit.wlv.ac.uk/~cm1993/penn

More Related