Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
formules-rstudio.pdf
formules-rstudio.pdf
Cargando en…3
×

Eche un vistazo a continuación

1 de 10 Anuncio
Anuncio

Más Contenido Relacionado

Más reciente (20)

Anuncio

formules-rstudio.pdf

  1. 1. StuDocu is not sponsored or endorsed by any college or university Fòrmules Rstudio Analisi de Dades (Universitat Pompeu Fabra) StuDocu is not sponsored or endorsed by any college or university Fòrmules Rstudio Analisi de Dades (Universitat Pompeu Fabra) Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  2. 2. INFO INTRO  skip() allows you to skip the current question.  play() lets you experiment with R on your own; swirl will ignore what you do...  nxt() which will regain swirl's attention.  bye() causes swirl to exit. Your progress will be saved.  main() returns you to swirl's main menu.  info() displays these options again. TUTORIAL 1  “variable”: Introduir el nom de la variable d’una taula per desplegar-la. Ex: “mpgCity”  Canviar el nom d’una variable d’una taula: “nou nom”<-conjunt_de_dades$variable….Ex: myMPG<-cars$mpgCity  mean(variable): mitjana  median(variable): mediana  table(variable): endreçar variables i veure quants cops es repeteix cada dada moda  range(conjunt_de_dades$variable): Obtenir el valor mínim i màxim (rang: max- min.)  var(data): variància (data conjunt_de_dades$variable)  sd(data): desviació típica o estàndard  summary(data): 5 num. Resum d’una variable del conjunt de dades TUTORIAL 2  library(“package”): habilitar un paquet  sum(variable): suma la variable  sum(data): nOmbre total de Casos per a un conjunt de dades  hist(conjunt_de_dades): histograma del conjunt de dades o hist(variable,prob=TRUE): Histograma amb freq. relativa a l’eix vertical  quantile(conjunt_de_dades): 5 num. Resum  boxplot(quantile(conjunt_de_dades),range=0): diagrama de Caixa (range=0 es posa perque el diagrama arribi al mínim i el màxim).  sqrt(emm(conjunt_de_dades,order=2) - mean(conjunt_de_dades)^2): desviació estàndard de manera indirecta Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  3. 3.  frequency_table: taula de freqüències  “nom variable intervals” <- c(limits,separats,per,comes): ex: cj <- c(20,40,60,80,100)  els intervals cj tenen els límits inferiors a 20,40….  “nom variable frequències” <- c(frequencies): ex: nj <- c(5,10,15,5) TUTORIAL 6 NORMALITAT I DISTRIBUCIÓ NORMAL  head(marc_de_dades): mostra els primers casos d’un conjunt de dades.  Describe(data): resum numèric d’una variable numérica (mín, mitjana, sd, …)  Y= (x - a)/b: On x es la data, a= canvi d’origen i b=canvi d’escalatransformació de dades LINEALS Ex: mitjana lliures= (mitjana euros-50)/1.12…Ex2: sd lliures= sd euros/1.12 (la sd es una mesura de dispersió i per això només es veu afectada pel canvi d’escala)  Data.frame(marc_de_dades): Desplegar un marc de dades  Round(data): arrodonir vectors numérics o decimals. Ex: arrodonir a dos deimals i desar els resultats al mateix marc de dades amb el mateix nom de variable viatge$nou <- round(viatge_nou$lliures,2)  TRANSFORMACIONS NO LINEALS (Per canviar la forma de la distribució) o Transformacio logarítmica Noves dades= log(dades originials) EX: log_euros <- log(viatge$euros)  curve(dnorm(x,mean=m, sd=s),add=TRUE): Curva de distribució normal d’un conjunt de dades x, amb mitjana m i desviació típica s.  taula_normal: Taula de reqüencies d’una distribució normal  (REGLA 68-95-99.7): …  (….) TUTORIAL 7  Plot( y ~x): diagrama de dispersió o Plot(y~x, col=”lightblue”) : Valors del diagrama en blau o text(Y~X, labels=rownames(nom taula)) : Posar que significa cada punt  Ex.: A la taula “exam” on hi ha les variables “parcial” i “final” trobem tots els valors numèrics. Amb aquesta fòrmul ens surt el valor de cada punt en el diagrama de dispersió.  Cor(x,y): correlació lineal entre dues variables Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  4. 4.  Lm(y~x): Calular línia de regressió. Obtenim els coeficients de la regressió.  o Abline(data o nom del marc de dades): dibuixar linia de regressió al diagrama de Caixa (abans s’ha de tenir fet plot(y~x))  Abline(0,0): dibuixar una linia al punt 0 per mostrar els punts per sobre i per sota. o Lm(y~x,data=”nou nom data sense valors atípics”): línia de regressió sense els valors eliminats, amb la nova taula. o Constant estimada + ex. Variable explicativa*pendent: Obtenir prediccions de la variable dependent. EXEMPLE: Quina notra treuré si he tret un 70 al parcial? Parcial  Variable explicativa Fem la línea de regressió i ens donarà Constant estimada (intercept): -4.953 Relació amb la variable explicativa: 1.127  Per cada 1 al parcial treurà 1.127 al final Apliquem la fòrmula: -4.953+70*1.127= 73.937 Si al parcial trec un 70, al final treure 73.937. o Predict(nom marc de dades, data.frame(var. Explicativa= x): Per fer la predicció amb formula. Ex: predict(fit,data.frame(parcial=70) Ex: predict(lm(lvendes~lpub),data.frame(lpub=log(4.5)))  Summary(nom marc dades): resum numeric de tot. o R-Squarted ens indica el % de varició de la variable dependent (“final”) respecte a la explicativa (“parcial”) Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  5. 5.  Resid(marc de dades o data): Identificar anomalies com la no linealitat (diagrama de residus). o Per fer el diagrama de residus entrem plot(marc de dades~variable explicativa)  Per afegir títol al diagrama plot(…..,main=”nom”)  Per afegir nom a les y plot(….,ylab=”nom”) o També es pot fer el histograma directament  Identify(y~x): Poder identificar valors del diagrama o Tecla ESC  Mostrar el número de cas (observació) en la mateixa gràfica. Prenent 2 COPS, imprimirà en num de casos i torna el al tutorial normal.  Nom taula [-c(valor 1, valor 2),]: Eliminar els valors seleccionats del diagrama. Es per comprovar si les observacions són influents o no en el resultat (Per ex.: Canvi molt la mitjana si s’elimina un vlor atípic? Sí).  Plotluck(marc de dades, Y~X): S’utilitza el paquet “plotluck” per suavizar la variació de la variable dependent i obtener una idea sobre una posible relació no lineal entre Y i X.  Log(data): Treballar amb no linealitats. Amb el model log-log prenem logaritmes naturals de la variable dependent i la variable explicativa i calculem la regressió amb les variables transformades. Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  6. 6. o Plot(Y~X): Mostrar el nou digrama de disp. Amb les dades transformades. o Abline(lm(Y~X)): Afegir línea de regressió al diagrama de dispersió. o Exp(resultat de la predicció amb dades transformades a log): L’exponencial és el contrari del logaritme, per tant, aplicant l’exponencial obtindrem el resultat sense la transformació de dades. Ex: predict(lm(lvendes~lpub),data.frame(lpub=log(4.5)))  Predicció amb dades transformades exp(predict(lm(lvendes~lpub),data.frame(lpub=log(4.5)))  Predicció SENSE les dades transformades. Pots posar tota la fòrmula o aplicar la exponencial sobre el resultat obtingut amb la formula de dades transformades. TUTORIAL 8  Table( marc de dades): Per obtenir la taula de contingència d’una taula amb valors categòrics (Fer recompte dels casos de cada valor i expressar-ho amb una en valors absoluts)  Barplot(marc de dades, legend=TRUE): Per fer un diagrama de barres amb la llegenda.  o T(marc de dades): Trasposar dades: les columnes pasen a ser files i viceversa (R tendeix a a posar la variable columna a l’eix horitzontal i de manera apilada)  Fer un diagrama de barres amb la variable fila a l'eix horitzontal i de forma agrupadabarplot(t(dist),legend=TRUE,beside=TRUE) Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  7. 7.  Prop.table(marc de dades): Obtenir valors relatius del marc de dades. o Prop.table(marc de dades, num): Obtenir valors relatius condicionats per la variable fila (1) o columna (2).  barplot(prop.table(marc de dades,2),legend=TRUE): Veure gràficament si les distribucions condicionals són iguals o diferents Posant-ho tot a la mateixa escala és fàcil veure  Margin.table(marc de dades,1): Obtenir la distribució marginal de la variable fila o Margin.table(marc de dades, 2): Obtenir la distribució marginal de la variable columna. o Prop.table(margin.table(marc de dades, num): Obtenir distribució marginal de freqüències relatives de fila (1) o columna (2). Distribució marginal de la variable fila  barplot(t(prop.table(dist,1)),legend=TRUE): Diagrama de barres de la distribució condicional de la variable columna condicionada a la variable fila PROGRAMACIÓ AMB R 3. SEQÜÈNCIA DE NÚMEROS  Crear seqüència de números: o Operador “ : “  Crear una seqüència de números  EX: 1: 20  Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  8. 8. Si posa pi:10, sortiran els primers valors enters de pi amb alguns decimals, atès que aquests són infinits. Si es posa 20:1, comença a comptar núm. Enters del revés.  Per obtener información sobre aquest operador (:) hem de posar l’interrognt però amb l’accent greu ?`:` o Seq(num,num)  Ex: seq (1,20)  Fa el mateix que l’operador “:”  Si volem una seqüència incrementada per 0.5, per exemple  seq(num,num, by=num de increment).  Ex: seq(0,10, by=0.5) Això posarà els núm enters de 0 a 10 amb incrementacions de 0.5  Si no ens interesa quan és l’increment i simplement volem una seq. De 30 núm  seq(num,num, length=num de seq.)  Length (marc de dades): Per comprobar que realment l longitud és 30.  Trobar una seqüència amb longitud N on N és la longitud desconeguda d’un marc de dades  o 1:length(marc de dades) Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  9. 9. o Seq(along.with=marc de dades) o Seq_along(marc de dades)  Per trobar un vector amb 40 zeros, per exemple, podem usar la funció “replicate” aplicant: o Rep(0, times=40)  Sortirà una cosa com: 0 0 0 0 0 0 0 0 (fins 40) o Rep( c( 0, 1, 2), times=10)  0 1 2 0 1 2 0 1 2… o Rep(c(0,1,2), each=10)  Un vector amb 10 zeros, 10 uns i 10 dos. 4. VECTORS Els vectors tenen dos sabors diferents: Vectors atòmics: Un tipus de dada. Poden ser lògics, de carácter, enters i num. Complexos. Els vectors lògics poden contenir els valors TRUE, FALSE I NA (not available) Llistes: Múltiples dades.  Crear un vector numèric: c(num,num,num) o Marc de dades >= num  Més gran o igual que un numero o marc de dades < 1  marc de dades és més petit que 1  marc de dades: Si imprimim el marc de dades nomenat, ens sortirà els números que compleixen la condició:  Operadors lògics: <, >, >=, <=,, == (igualtat exacte),!= (no igual). Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020
  10. 10.  Crear un vector de carácter: c(“paraula”,”paraula”,”paraula”) o paste(marc de dades, collapse = " "): Unir els elements del vector carácter  Ex: paste(my_char, collapse = " "): “el meu nom es”  paste("Hola", "món!", sep = " "): L’argument sep= “ “ li diu al vector que separi els elements units amb un vector. o c(marc de dades, “nom”): Per afegir una paraula al vector de carácter.  Tornar a utilizar la funció paste per ficar totes les paraules entre les cometes Downloaded by MARTINA BENITO ORTEGA (martina.benito03@estudiant.upf.edu) lOMoARcPSD|17645020

×