h
2021. 3. 5. 19:30
RStudio
File - NEwFile - RScript
Tools - Global Options - Apperance - 세팅해
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 | # R # Python 냄새가 나~ # 함수 진행도 비슷함 # 과학 계산 언어 - 정식 프로그래밍 언어로 하기엔 애매... # 인터프리터 방식 언어 # Ctrl + Enter = 그 줄 실행 # Hadoop 결과 파일 불러오기 samResult = readLines("C:/Users/Administrator/Documents/ALDrive/Download/scResult2.txt", encoding="UTF-8") print(samResult) # 인덱스값 = 1부터 print(samResult[1]) # Hadoop의 결과파일 # 키\t값 # \t 기준으로 나눠서 samResult에 다시 저장하기 # for문 돌릴 필요 없이 해줌 samResult = strsplit(samResult, "\t") # 첫번째 데이터 전체 print(samResult[[1]]) # 첫번째 데이터의 첫번째 데이터 print(samResult[[1]][1]) # 첫번째 데이터의 두번째 데이터 print(samResult[[1]][2]) # for (sr in samResult ) { # n번째 데이터 # print(sr) # n번째 데이터의 첫번째 데이터 # print(sr[1]) # n번째 데이터의 두번째 데이터 # print(sr[2]) # } # 이름 따로 언급횟수 따로 나누기 # c() 이름 데이터 들어갈 빈 vector(리스트) 만들기 name = c() # c() 횟수 데이터 들어갈 빈 vector(리스트) 만들기 count = c() # length() vector에 몇개 들어 있나 print(length(name)) # as.numeric() : 문자열을 숫자로 바꾸기 # as.character() : 숫자를 문자열로 바꾸기 for (sr in samResult) { # name 1번에다가 첫번째 데이터에 첫번째 데이터 넣어주기 name[length(name) + 1] = sr[1] # count 1번에다가 첫번째 데이터에 두번째 데이터 넣어주기 # 문ㅁ자열을 숫자열로 바꿔서 넣기 count[length(count) + 1] = as.numeric(sr[2]) } print(name) # count는 현재 문자열 # "987" "3986" "6059" # as.numeric로 바꾸면 987 3986 6059 print(count) # 데이터 프레임으로 정리 # 제목 = vector # 여기까지 1차 목표 samDF = data.frame(NAME=name, COUNT=count) #통계함수 # max(people$HEIGHT) # 최대값 # min(people$AGE) # 최소값 # mean(people$HEIGHT) # 평균 # median(people$HEIGHT) # 중간값 # order(people$AGE) # 순위 # order(-people$AGE) # 역순위 # prod(people$AGE) # 누적곱 # sum(people$HEIGHT) # 누적합 # summary(people$HEIGHT) # 요약 # range(people$HEIGHT) # 범위 # sd(people$HEIGHT) # 표준편차 # var(people$HEIGHT) # 분산 # people = people[order(people$NAME), ] # 이름순 정렬 #DateFrame$하면 해당 데이터에만 접근 가능 print(samDF$NAME) print(sum(samDF$COUNT)) print(mean(samDF$COUNT)) #정렬 # order(samDF$NAME) 내림차순 # order(-samDF$NAME)올림차순 samDF = samDF[order(samDF$NAME),] print(samDF) # 막대 그래프 # barplot() barplot( samDF$COUNT, # names.arg -> x 축 제목 names.arg = samDF$NAME, # 제목 main = "삼국지", # x축 제목 xlab = "누가", # y축 제목 ylab = "몇번", # 색상 # col = "#FF0000", # 각각 색상지정 가능 # col = c("#FF0000", "00FF00", "0000FF") # 무지개 색을 갯수에 맞게 넣어줌;; col = rainbow(3) ) | cs |
'Hadoop' 카테고리의 다른 글
mongo2 (0) | 2021.03.12 |
---|---|
MongoDB설치 (0) | 2021.03.11 |
10 (0) | 2021.03.04 |
9. Hadoop - 맛보기 (0) | 2021.03.04 |
8. Hadoop - Hadoop 설치 하기 (0) | 2021.03.03 |