h

2021. 3. 5. 19:30

RStudio

 

File - NEwFile - RScript

 

Tools - Global Options - Apperance - 세팅해

 

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
# R
#   Python 냄새가 나~
#   함수 진행도 비슷함
#   과학 계산 언어 - 정식 프로그래밍 언어로 하기엔 애매...
#   인터프리터 방식 언어
 
# Ctrl + Enter = 그 줄 실행
 
# Hadoop 결과 파일 불러오기
samResult = readLines("C:/Users/Administrator/Documents/ALDrive/Download/scResult2.txt", encoding="UTF-8")
print(samResult)
 
# 인덱스값 = 1부터
print(samResult[1])
 
# Hadoop의 결과파일
# 키\t값
 
# \t 기준으로 나눠서 samResult에 다시 저장하기
# for문 돌릴 필요 없이 해줌
samResult = strsplit(samResult, "\t")
 
# 첫번째 데이터 전체
print(samResult[[1]])
# 첫번째 데이터의 첫번째 데이터
print(samResult[[1]][1])
# 첫번째 데이터의 두번째 데이터
print(samResult[[1]][2])
 
# for (sr in samResult ) {
   # n번째 데이터
#  print(sr)
   # n번째 데이터의 첫번째 데이터
#  print(sr[1])
   # n번째 데이터의 두번째 데이터
#  print(sr[2])
# }
 
# 이름 따로 언급횟수 따로 나누기
 
# c() 이름 데이터 들어갈 빈 vector(리스트) 만들기
name = c()
# c() 횟수 데이터 들어갈 빈 vector(리스트) 만들기
count = c()
# length() vector에 몇개 들어 있나
print(length(name))
 
# as.numeric()   : 문자열을 숫자로 바꾸기
# as.character() : 숫자를 문자열로 바꾸기
 
for (sr in samResult) {
  # name 1번에다가 첫번째 데이터에 첫번째 데이터 넣어주기
  name[length(name) + 1= sr[1]
  # count 1번에다가 첫번째 데이터에 두번째 데이터 넣어주기
  # 문ㅁ자열을 숫자열로 바꿔서 넣기
  count[length(count) + 1= as.numeric(sr[2])
}
print(name)
 
# count는 현재 문자열
# "987"  "3986" "6059"
# as.numeric로 바꾸면 987 3986 6059
print(count)
 
# 데이터 프레임으로 정리
# 제목 = vector
# 여기까지 1차 목표
samDF = data.frame(NAME=name, COUNT=count)
 
#통계함수
# max(people$HEIGHT)        # 최대값
# min(people$AGE)            # 최소값
# mean(people$HEIGHT)        # 평균
# median(people$HEIGHT)      # 중간값
# order(people$AGE)          # 순위
# order(-people$AGE)        # 역순위
# prod(people$AGE)          # 누적곱
# sum(people$HEIGHT)        # 누적합
# summary(people$HEIGHT)    # 요약
# range(people$HEIGHT)      # 범위
# sd(people$HEIGHT)          # 표준편차
# var(people$HEIGHT)        # 분산
# people = people[order(people$NAME), ]    # 이름순 정렬
 
#DateFrame$하면 해당 데이터에만 접근 가능
print(samDF$NAME)
print(sum(samDF$COUNT))
print(mean(samDF$COUNT))
 
#정렬
# order(samDF$NAME) 내림차순
# order(-samDF$NAME)올림차순
samDF = samDF[order(samDF$NAME),]
print(samDF)
 
# 막대 그래프
# barplot()
barplot(
  samDF$COUNT,
  # names.arg -> x 축 제목
  names.arg = samDF$NAME,
  # 제목
  main = "삼국지",
  # x축 제목
  xlab = "누가",
  # y축 제목
  ylab = "몇번",
  # 색상
  # col = "#FF0000",
  # 각각 색상지정 가능
  # col = c("#FF0000", "00FF00", "0000FF")
  # 무지개 색을 갯수에 맞게 넣어줌;;
  col = rainbow(3)
)
 
 
 
cs

'Hadoop' 카테고리의 다른 글

mongo2  (0) 2021.03.12
MongoDB설치  (0) 2021.03.11
10  (0) 2021.03.04
9. Hadoop - 맛보기  (0) 2021.03.04
8. Hadoop - Hadoop 설치 하기  (0) 2021.03.03

BELATED ARTICLES

more