220 likes | 779 Views
실험 계획서. 초성으로 타이핑을 할 때 사용자가 원하는 단어를 얼마나 정확하게 추천해줄 수 있는가 ?. 초성 검색을 하기 위한 기초 실험. 1. 실험 주제. 무엇을 위한 실험인가 ?. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가 ? 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째 단 어 까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?. 1. 어떤 데이터를 수집해야 하는가 ? 2. 데이터 베이스 크기와 추천의 정확도 의 관계
E N D
초성으로 타이핑을 할 때 사용자가 원하는 단어를 얼마나 정확하게 추천해줄 수 있는가? 초성 검색을 하기 위한 기초 실험 1. 실험 주제 무엇을 위한 실험인가?
데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가? 사용 빈도수가 높은 순서대로 추천을 할 때, 몇 번째 단어까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가? 1. 어떤 데이터를 수집해야 하는가? 2. 데이터 베이스 크기와 추천의 정확도 의 관계 3. 몇 개의 단어를 추천해 주어야 사용자가 원하는 단어를 제대로 추천해 줄 수 있는가. 2. 실험 내용 무엇을 실험할 것인가? 추천을 잘 해줄 수 있는가? 데이터를 얼마나 모아야 하는가? 단어 몇 개를 추천해야 하는가?
실험1. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가?
웹에서 더 많은 단어를 크롤링해올수록평소 많이 사용하지 않는 단어들도 더 많이 가지고 오게 된다. ▼ 이런 방해요소가 얼마나 큰 영향을 미치는지 알아보기 위해 이 실험을 한다. 더 많은 데이터를 모아올수록 방해요소(노이즈)가 많아짐. 실험 목적 노이즈 발생!
DB 크기에 따라 카톡DB와리플DB가 같은 레코드의 개수가 얼마인지를 체크함 실험 방법 어떻게 실험 할 것인가? 1 웹에서 리플 크롤링 (리플.txt) 리플.txt 특수문자 제거 2 3 각기 다른 크기로 무작위하게 나눔 3만개 데이터 수집 1만개 단위씩 카톡.txt 특수문자 제거 6 5 리플DB에서 중복된 값 제거 (distinct 리플DB) 3에서 만든 파일을 각각 DB로 만듦 (리플DB) 4 1천개데이터 수집 얼마나 추천을 잘 해주는지 알 수 있음 distinct 카톡DB의 레코드와 distinct 리플DB의 레코드가 같은 레코드가 몇 개인지 카운팅 7 특수문자 제거한 카톡.txt파일을 DB로 만듦 (카톡DB) 카톡DB에서 중복된 값 제거 (distinct 카톡DB) 8 9
** 리플크롤링** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어. 제발. 솔직히 흡연자들도 다른사람 연기는 진짜 싫어. 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자. [리플.txt] 웹에서 리플크롤링 실험 방법 1 1 단계
** 리플 특수문자 제거 ** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 [리플.txt] 리플.txt 특수문자 제거 실험 방법 2 2 단계
** 리플무작위하게 나누기 ** 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 [리플1.txt] 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 [리플2.txt] 제발 댓글진짜안쓰는데 흡연구역을 좀만들어 제발 솔직히 흡연자들도 다른사람 연기는 진짜 싫어 흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 [리플3.txt] 각기 다른 크기로 무작위하게 나눔 실험 방법 3 3단계
** 리플DB 만들기 ** [리플1 DB] // 리플2, 3도 마찬가지로 만듦 DB 생성 실험 방법 4 4 단계
** 리플DB 중복 값 제거 ** [distinct 리플1.DB] 리플DB 중복 레코드 제거 실험 방법 5 5 단계
** 카톡 특수문자 제거 ** 흡연구역을 만들어줘야 맞는거 아니냐 흡연자들의 권리도 있음 [카특.txt] 카톡.txt 특수문자 제거 실험 방법 6 6 단계
6에서 만든 파일 DB로 만듦(카톡DB) 실험 방법 7 7 단계 ** 카톡DB 만들기 ** [카톡 DB]
카톡DB 중복 레코드 제거 실험 방법 8 8 단계 ** 카톡DB 중복 값 제거 ** [distinct 카톡DB]
카톡DB에서 리플DB와 같은 레코드가 몇 개 인지 체크 ※카톡1,2,3 DB는 distinct 카톡DB의 key, value를 그대로 복사해온 DB임. 실험 방법 9 9 단계 ** 일치하는 레코드 개수 체크 ** [카톡1 DB] // 리플1,2,3 모든 DB로 체크 리플1 DB와 key, value가같은 레코드가 있으면 1’ 없으면 ‘0’
카톡1,2,3 DB의 baseCount 컬럼에‘1’이 많은 DB가 어떤 DB인지를 찾는다. ∵ 그만큼 추천해주는 단어가 많다는 이야기이기 때문이다. baseCount컬럼에 ‘1’이 많은 DB를 찾음 결과 도출 결론은?
실험2. 사용 빈도수가 높은 순서대로 추천을 할 때, 몇 번째까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가?
실험 1의 결과를 바탕으로 하는 실험. 한 key에대해서 많은 value를 가질 수 있다. 모든 value들을 모두 추천해줄 수 없기 때문에 이 실험을 한다. 사용자가 원하는 단어를 잘 추천하기 위해서는 선택 된 많은 value 중에서 몇 개의 단어를 추천해야 하는가? 실험 목적 몇 개 단어 추천?
실험 방법 어떻게 실험 할 것인가? 1 2 3 6 5 4 7 8 9