1 / 19

실험 계획서

실험 계획서. 초성으로 타이핑을 할 때 사용자가 원하는 단어를 얼마나 정확하게 추천해줄 수 있는가 ?. 초성 검색을 하기 위한 기초 실험. 1. 실험 주제. 무엇을 위한 실험인가 ?. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가 ? 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째 단 어 까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?. 1. 어떤 데이터를 수집해야 하는가 ? 2. 데이터 베이스 크기와 추천의 정확도 의 관계

lev-beasley
Download Presentation

실험 계획서

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 실험 계획서

  2. 초성으로 타이핑을 할 때 사용자가 원하는 단어를 얼마나 정확하게 추천해줄 수 있는가? 초성 검색을 하기 위한 기초 실험 1. 실험 주제 무엇을 위한 실험인가?

  3. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가? 사용 빈도수가 높은 순서대로 추천을 할 때, 몇 번째 단어까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가? 1. 어떤 데이터를 수집해야 하는가? 2. 데이터 베이스 크기와 추천의 정확도 의 관계 3. 몇 개의 단어를 추천해 주어야 사용자가 원하는 단어를 제대로 추천해 줄 수 있는가. 2. 실험 내용 무엇을 실험할 것인가? 추천을 잘 해줄 수 있는가? 데이터를 얼마나 모아야 하는가? 단어 몇 개를 추천해야 하는가?

  4. 실험1. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가?

  5. 웹에서 더 많은 단어를 크롤링해올수록평소 많이 사용하지 않는 단어들도 더 많이 가지고 오게 된다. ▼ 이런 방해요소가 얼마나 큰 영향을 미치는지 알아보기 위해 이 실험을 한다. 더 많은 데이터를 모아올수록 방해요소(노이즈)가 많아짐. 실험 목적 노이즈 발생!

  6. DB 크기에 따라 카톡DB와리플DB가 같은 레코드의 개수가 얼마인지를 체크함 실험 방법 어떻게 실험 할 것인가? 1 웹에서 리플 크롤링 (리플.txt) 리플.txt 특수문자 제거 2 3 각기 다른 크기로 무작위하게 나눔 3만개 데이터 수집 1만개 단위씩 카톡.txt 특수문자 제거 6 5 리플DB에서 중복된 값 제거 (distinct 리플DB) 3에서 만든 파일을 각각 DB로 만듦 (리플DB) 4 1천개데이터 수집 얼마나 추천을 잘 해주는지 알 수 있음 distinct 카톡DB의 레코드와 distinct 리플DB의 레코드가 같은 레코드가 몇 개인지 카운팅 7 특수문자 제거한 카톡.txt파일을 DB로 만듦 (카톡DB) 카톡DB에서 중복된 값 제거 (distinct 카톡DB) 8 9

  7. ** 리플크롤링** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어. 제발. 솔직히 흡연자들도 다른사람 연기는 진짜 싫어. 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자. [리플.txt] 웹에서 리플크롤링 실험 방법 1 1 단계

  8. ** 리플 특수문자 제거 ** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 [리플.txt] 리플.txt 특수문자 제거 실험 방법 2 2 단계

  9. ** 리플무작위하게 나누기 ** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 [리플1.txt] 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 [리플2.txt] 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 [리플3.txt] 각기 다른 크기로 무작위하게 나눔 실험 방법 3 3단계

  10. ** 리플DB 만들기 ** [리플1 DB] // 리플2, 3도 마찬가지로 만듦 DB 생성 실험 방법 4 4 단계

  11. ** 리플DB 중복 값 제거 ** [distinct 리플1.DB] 리플DB 중복 레코드 제거 실험 방법 5 5 단계

  12. ** 카톡 특수문자 제거 ** 흡연구역을 만들어줘야 맞는거 아니냐 흡연자들의 권리도 있음 [카특.txt] 카톡.txt 특수문자 제거 실험 방법 6 6 단계

  13. 6에서 만든 파일 DB로 만듦(카톡DB) 실험 방법 7 7 단계 ** 카톡DB 만들기 ** [카톡 DB]

  14. 카톡DB 중복 레코드 제거 실험 방법 8 8 단계 ** 카톡DB 중복 값 제거 ** [distinct 카톡DB]

  15. 카톡DB에서 리플DB와 같은 레코드가 몇 개 인지 체크 ※카톡1,2,3 DB는 distinct 카톡DB의 key, value를 그대로 복사해온 DB임. 실험 방법 9 9 단계 ** 일치하는 레코드 개수 체크 ** [카톡1 DB] // 리플1,2,3 모든 DB로 체크 리플1 DB와 key, value가같은 레코드가 있으면 1’ 없으면 ‘0’

  16. 카톡1,2,3 DB의 baseCount 컬럼에‘1’이 많은 DB가 어떤 DB인지를 찾는다. ∵ 그만큼 추천해주는 단어가 많다는 이야기이기 때문이다. baseCount컬럼에 ‘1’이 많은 DB를 찾음 결과 도출 결론은?

  17. 실험2. 사용 빈도수가 높은 순서대로 추천을 할 때, 몇 번째까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가?

  18. 실험 1의 결과를 바탕으로 하는 실험. 한 key에대해서 많은 value를 가질 수 있다. 모든 value들을 모두 추천해줄 수 없기 때문에 이 실험을 한다. 사용자가 원하는 단어를 잘 추천하기 위해서는 선택 된 많은 value 중에서 몇 개의 단어를 추천해야 하는가? 실험 목적 몇 개 단어 추천?

  19. 실험 방법 어떻게 실험 할 것인가? 1 2 3 6 5 4 7 8 9

More Related