1) El documento resume diferentes métodos para presentar conjuntos de datos, incluyendo tablas, gráficas y medidas numéricas. 2) Explica diferentes tipos de variables como nominales, ordinales, de clasificación en rangos, discretas y continuas. 3) Detalla distribuciones de frecuencias, frecuencias relativas y gráficas como histogramas y polígonos de frecuencias para resumir datos.
2. Presentación de datós
Todo estudiooexperimentoarrojaunconjuntode datos.Su tamañopuede variarde unas cuantasa variosmilesde
observaciones.Noobstante,unconjuntocompletode datosnonecesariamente proporcionaráal investigadorinformación
que puedainterpretarse confacilidad.
La estadísticadescriptivacomprende unconjuntode maneraspara organizary resumirobservaciones. Estasmanerasnos
proporcionanunresumende losrasgosgeneralesde unconjuntode datos.La estadísticadescriptivapuede adoptar
diferentesformas,entre lascualesestánlastablas,gráficasymedidasnuméricasde resumen.Eneste capítulo
analizaremosdiversosmétodosparapresentarunconjuntode datos.
Variables nominales
En el estudiode labioestadísticaencontramosdistintostiposde datosnuméricos,loscuales,asuvez,tienendiferentes
grados de estructuraenlas relacionesentre susposiblesvalores.Unade lasclasesmás simplesde datoseslavariable
nominal,enlacual losvaloresse registrandentrode categoríaso clasesdesordenada.
Variables ordinales
Cuandoel ordenentre lascategorías
adquiere importancia,las
observacionesse denominanvariables
ordinales.Porejemplo,losdaños
puedenclasificarse de acuerdoconsu
grado de gravedad,de modoque el
represente undañofatal,el 2 undaño
severo,el 3 undaño moderadoyel 4
un dañomenor.Aquíexiste unorden
natural entre losagolpamientos;el
númeromenorrepresentaundaño
menosserio;sinembargo,aúnnonos
interesalamagnitudde estos
números.Podríamoshaberasignadoel 4 al daño fatal y el 1 al menor.Además,ladiferenciaentre undañofatal y uno
grave no esnecesariamentelamismaque ladiferenciaentre undañomoderadoyunomenor,aunque ambosparesde
resultadosdifieranenunaunidad.Comoresultado,muchasoperacionesaritméticasaúncarecende sentidocuandose
aplicana las variablesordinales.
Variables de clasificación en rangos
En algunoscasostenemosungrupode
observacionesque puedenordenarse primero
de mayor a menorde acuerdo con su
magnitudydespuésasignárselesnúmeros
secuencialescorrespondientesasulugar enla
lista.Este tipode datos se conoce como
variablesde clasificaciónenrangos. Por
ejemplo,considere todaslasposiblescausas
de muerte enEstadosUnidos.Podríamos
elaborarunalistade todaslascausas, junto
con la cantidadde vidasque cada una de ellas
Estado Definición
0 -Paciente totalmente activo, capaz de desempeñarse sin restricción en todas las actividades que
realizaba antes de enfermar.
1 -Paciente con restricciones para desarrollar actividades físicas intensas, pero ambulatorio y capaz
de llevar a cabo trabajo de naturaleza ligera o sedentaria.
2 -Paciente no encamado y capaz de atenderse a sí mismo, aunque no apto para llevar a cabo
actividades laborales; lúcidas y atento más de 50% de las horas que pasa despierto.
3
-Paciente capaz de atenderse a sí mismo de forma limitada; confinado a una cama o silla más de
50% de las horas que pasa despierto.
4
-Paciente discapacitado por completo; incapaz de cuidarse a sí mismo, confinado a una cama o
silla
3. cobró en1992. Si las causas se ordenaronde la que ocasionóel mayor númerode muertesala que provocóel menor
númeroy despuésse lesasignannúmerosenterosconsecutivos,se dice que losdatosse clasificaronenrangos.
Variables discretas
En las variablesdiscretas tantoel ordencomo lamagnitudsonimportantes.Eneste caso,losnúmerosrepresentan
cantidadesmediblesrealesenlugarde merasetiquetas.Además,lasvariablesdiscretasse restringensóloavalores
específicos —amenudoenterosocuentas— que difierenencantidadesfijas;nose permitenvaloresintermedios.
Ejemplosde variablesdiscretassonel númerode accidentesvehicularesenciertomes,lacantidadde vecesque unamujer
ha dado a luz,el númeroanual de casos de tuberculosisregistradosyel númerode camasdisponiblesen unhospital
determinado.
Variables continuas
Los datosque representancantidadesmediblesperoque nose restringenaciertosvaloresespecíficos(comolosenteros)
se denominan variablescontinuas.En este caso,la diferenciaentre dosposiblesvalores de datospuede ser
arbitrariamente pequeña.Ejemplosde variablescontinuassonel tiempo,el nivelde colesterol enlasangre enunpaciente,
la concentraciónde uncontaminante ylatemperatura.Entodos loscasos se admitenvaloresfraccionarios.Debido aque
estamosenla posibilidadde medirladistanciaentre dosobservacionesde formasignificativa,se puedenaplicarlas
operacionesaritméticas.
Tablas
Aunque se pierde ciertacantidadde informacióncuandose resumenlosdatos,tambiénse ganaunagran cantidadde
información.Unatablaesprobablementeel mediomássencillode resumirunconjuntode observacionesyse puede
utilizarparatodo tipode datosnuméricos.
Distribuciones de frecuencias
Un tipode tablacomúnmente utilizadoparaevaluardatosse denominadistribuciónde frecuencias.Parael caso de las
variablesnominalesyordinales,unadistribuciónde frecuenciasconsisteenunconjuntode clasesocategorías con
cantidadesnuméricascorrespondientesacada una.
La tabla1 presentalosnúmerosde individuos(cantidadesnuméricas) que padecieronynopadecieronel sarcomade
Kaposi (clasesocategorías) de losprimeros2560 casosde SIDA que se reportaronen(Centrosde Control de
Enfermedades).Unejemplomáscomplejoaparece enlatabla2,que especificalascantidadesde cigarrillosconsumidos
por adultoenEstadosUnidosen variosaños.
Para presentarlasvariablesdiscretasocontinuasenformade distribuciónde frecuencias,debemosdividirel rangode
valoresde lasobservacionesen unaserie de intervalosdistintosque nose traslapen. Si haydemasiadosintervalos,el
resumennotiene grandesventajasrespectode losdatossinprocesar.Si haymuy pocos,se pierde grancantidadde
información.Aunquenoesnecesariohacerlo,losintervalosamenudose construyende tal formaque tenganamplitudes
iguales;estofacilitalascomparacionesentre clases.Unavezelegidosloslímitessuperiore inferiorde cadaintervalose
cuentael númerode observacionescuyosvalorescaendentrode cadapar de límitesylosresultadosse acomodanen
formade tabla.
Por ejemplo,comoparte de una EncuestaNacional de Exámenesde Salud(enEstadosUnidos),se registraronlosniveles
de colesterol enlasangre de 1067 varonesde 25 a 34 añosde edad aproximándolosal miligramomáscercanoporcada
100 mililitros.Luegose subdividieronlasobservacionesenintervalosde igual longitud;lasfrecuenciascorrespondientesa
cada intervaloaparecenenlatabla3.
4. Frecuencia relativa
La frecuenciarelativade unintervaloeslaproporcióndel númerototal de observacionesque aparece enel intervalo.La
frecuenciarelativase calculadividiendoel númerode valoresenunintervaloentre el númerototal de valoresenlatabla.
La proporciónpuede dejarse tal comoestáo puede multiplicarse por100% para obtenerel porcentaje de valoresenel
intervalo.Enlatabla2.6, por ejemplo,lafrecuenciarelativaenlaclase de 80-119 mg/100 mi es(13/1067) X 100% = 1.2%;
de igual forma,la frecuenciarelativaenlaclase 120-159 mg/100 mi es (150/1067) X 100% = 14.1%. Las frecuencias
relativasde todoslosintervalosenunatablasuman100%.
Las frecuenciasrelativassonútilesparacompararconjuntosde datoscon un númerodesigual de observaciones.
La frecuenciarelativaacumuladade unintervaloesel porcentaje del númerototal de observacionesconunvalormenoro
igual al límite superiordel intervalo.Lafrecuenciarelativaacumuladase calculasumandolasfrecuenciasrelativas de un
intervaloespecíficoytodaslasanteriores.Así,enel grupode individuosde 25 a 34 añosde edadde la tabla2.7, la
frecuenciarelativaacumuladadel segundointervaloes1.2+ 14.1 = 15.3%; asimismo,lafrecuenciarelativaacumuladadel
tercerintervaloes1.2 + 14.1 + 41.4 = 56.7%. Tal como lasfrecuenciasrelativas,lasfrecuenciasrelativasacumuladasson
útilesparacomparar conjuntosde datoscon númerosdesigualesde observaciones.
Frecuenciasabsolutayrelativade nivelesde colesterol enlasangre de 2294 varones
estadounidenses,1976-1980.
Nivel de
colesterol
(mg/100 mi)
Edades 25-34 Edades 55-64
Número de
varones
Frecuencia
relativa (%)
Número de
varones
Frecuencia
relativa (%)
80-119 13 1.2 5 0.4
120—159 150 14.1 48 3.9
160-199 442 41.4 265 2L6
200-239 299 28.0 458 37.3
240-279 115 10.8 281 22.9
280-319 34 3.2 128 10.4
320-359 9 0.8 35 2.9
360-399 5 0.5 7 0.6
Total 1067 100.0 1227 100.0
5. Frecuenciasrelativayrelativaacumuladade nivelesde colesterol enlasangre de 2294
varonesestadounidenses,1976-1980.
Nivel de
colesterol
(mg/100 mi)
Edades 25-34 Edades 55-64
Frecuencia
relativa
(%)
Frecuencia
relativa
acumulada
(%)
Frecuencia
relativa
(%)
Frecuencia
relativa
acumulada
(%)
80-119 1.2 1.2 0.4 0.4
120-159 14.1 15.3 3.9 4.3
160-199 41.4 56.7 21.6 25.9
200-239 28.0 84.7 37.3 63.2
240-279 10.8 95.5 22.9 86.1
280-319 3.2 98.7 10.4 96.5
320-359 0.8 99.5 2.9 99.4
360-399 0.5 100.0 0.6 100.0
Debidoa que lasproporcionesrelativasde losdosgruposobedecenaestatendenciaencadaintervalode latabla,se dice
que lasdos distribucionesestánordenadasestocásticamente.
Graficas
Una segundamanerade resumiry presentardatosconsiste enlautilizaciónde gráficas,ore-presentacionesde datos
numéricos.Las gráficasdebendiseñarsede tal formaque comuniquenlospatronesgeneralesde unconjuntode
observacionesde unsolovistazo.Aunque sonmásfácilesde leerque lastablas,lasgráficasa menudosuministranmenos
detalles.De nuevo,lapérdidade detallesdeberíaacompañarse de unamayorcomprensiónde losdatos.
Diagramas de barras
Los diagramasde barras constituyenuntipopopularde gráficaspara presentardistribucionesde frecuenciasde variables
nominalesuordinales.Enun diagramade barras,las diferentescategoríasde lasobservacionesse presentanalolargo
de un eje horizontal.Se dibujauna barra vertical sobre cadacategoría de formaque la alturade la barra represente lafre-
cuenciao la frecuenciarelativade lasobservacionesde cadaclase.Lasbarras debenserde igual amplitudyestar
separadasde formaque no se percibacontinuidad.Comoejemplo,lasiguiente figura:
6. Histogramas
Tal vezel tipode gráfica más comúnseael histograma.Mientrasque undiagrama de barras representagráficamente una
distribuciónde frecuenciasyaseaparavariablesnominalesuordinales,un histogramadescribe unadistribuciónde
frecuenciasde variablesdiscretasocontinuas.El eje horizontal presentaloslímitesexactosde losdiversosintervalos.Los
límitesexactosde unintervalosonlospuntosque losseparande losintervaloslocalizados enambosextremos. El primer
paso para construirunhistogramaesdiseñarlasescalasde losejes.El eje vertical debe comenzarencero;de noserasí,
puedendistorsionarselascomparacionesvisualesentre losintervalos.Unaveztrazadoslosejes,se colocaunabarra
vertical centradaenel puntomediosobre cadaintervalo.Laaltura de la barra indicalafrecuenciaasociadaconese
intervalo.
En realidad,lafrecuenciaasociadaconcada intervalode unhistogramase representanoconla altura de la barra, sino
con el área de la barra. El áreadel histogramacompletosuma100%, o 1. Observe que laproporcióndel áreatotal que
corresponde aun intervaloesigual alafrecuenciarelativade dichointervalo.Comoconsecuencia,unhistogramacon
frecuenciasrelativas,tendrálamismaformaque unhistograma.
Polígono de frecuencias
El polígonode frecuencias,otragráficacomún,essimilaral histograma
envariosaspectos.Un polígono defrecuencias emplealosmismosdos
ejesque el histograma.Se construye conunpuntoenel centro de
cada intervalo,de modoque laalturadel puntoseaigual a la
frecuenciaofrecuenciarelativaasociadaconel intervalo.Lospuntos
tambiénse colocansobre el eje horizontal enlospuntosmediosde los
intervalosinmediatamente antesydespuésde losintervalosque
contenganlasobservaciones.Después,lospuntosse unenconlíneas
rectas.Como enel caso del histograma,lafrecuenciade las
observacionesde unintervaloparticularse representaconel área
dentrodel intervaloydebajodel segmentode recta. Puestoque
puedensobreponerseconfacilidad,lospolígonosde frecuenciasson
superioresaloshistogramasparacomparar dos o más conjuntosde
datos.
Aunque sueje horizontal esel mismoque el del polígonode frecuenciasnormal,el eje vertical de un polígonode
frecuenciasacumuladas presentalasfrecuenciasrelativasacumuladas.Se colocaunpuntoexactamente enel límite
superiorde cada intervalo;laalturadel puntorepresentalafrecuenciarelativaacumuladaasociadaal intervalo.Los
7. puntosse unencon líneasrectas.Igual que lospolígonosde frecuencias,
lospolígonosde frecuenciasacumuladasse puedenemplearpara
comparar conjuntosde datos.
Tambiénse puedenemplearlospolígonosde frecuenciasacumuladas
para obtenerlos percentiles de unconjuntode datos.Dicho
sencillamente,el percentil95 esun valorque esmayor o igual a 95% de
lasobservacionesymenoroigual al restante 5%. De igual manera,el
percentil 75 esun valormayoro igual a 75% de las observacionesy
menoro igual al otro 25%. Esta definiciónsóloesaproximada,pues
tomar 75% de un enteronoda como resultadogeneralmenteotro
entero;comoconsecuencia,amenudose redondea.
Diagramas lineales de dispersión
Otro tipode gráfica con que se resumenconjuntosde observacionesdiscretasocontinuasesel diagramalineal de
dispersión.Undiagramalineal de dispersiónempleaunsoloeje horizontalparapresentarlaposiciónrelativade cada
puntode datos enel grupo.Una ventajadel diagramalineal de dispersiónconsiste enque nose pierde información,
puestoque cada observaciónse representa de formaindividual;unadesventajaradicaenque el gráficopuede serdifícilde
leersi variospuntosdatosse encuentrancerca unosde otros.Gráfico de diagramalineal (véase másadelante)
Diagramas de caja
Los diagramasde caja son similaresalos diagramaslinealesde dispersión
enel hechode que requierenunsoloeje;sinembargo,enlugarde ubicar
cada observación,presentansólounresumende losdatos. Latabla1 es un
diagramade caja de losdatos noprocesadosde lastasas de mortalidad. La
caja central —que aparece de formavertical enla tabla 1 peroque también
puede aparecerhorizontalmente—se extiende desde el percentil25,772.0
por cada 100,000, al percentil 75,933.3 por cada 100,000. Los percentiles
25 y 75 de unconjuntode datos se denominancuartilesde losdatos.La
líneaque corre entre loscuartilesen872.0 muertesporcada 100,000
habitantesseñalael percentil 50del conjuntode datos;lamitadde las
observacionessonmenoresoigualesa872.0 por cada 100,000, mientras
que la otra mitadesmayor o igual a este valor.Si el percentil 50se ubica
aproximadamente alamitad,entre losdoscuartiles,estoimplicaque las
observacionesenel centrodel conjuntode datossonaproximadamente simétricas.
Las líneasque se proyectan fuerade la caja a ambosladosse extiendenalosvaloresadyacentesdeldiagrama.Losvalores
adyacentessonlasobservacionesmásextremasenel conjuntode datosnomayoresde 1.5 vecesla alturade la caja más
alláde cada cuartil.En latabla 1, 1.5 veceslaaltura de la caja es1.5 X (933.3 - 772.0) - 242.0 por cada 100,000 habitantes.
Por tanto,losvaloresadyacentesconstituyenlamenorylamayorobservacionesenel conjuntode datosque no,sonmás
extremasque 772.0 - 242.0 = 530.0 y 933.3 +242.0= 1175.53 por cada 100,000 habitantesrespectivamente,o539.5 3
100,000 y 1090.2 por cada 100,000. En los conjuntosde datosaproximadamente simétricos,losvaloresadyacentesdeben
contenermáso menos99% de lasmediciones.
Todoslos puntosfuerade este rangose representanconcírculos;estasobservacionesse consideranva/oresatípicos,o
puntosde datos que noson representativosdel restode losvalores.
8. Además,aunque undiagramade caja
contiene unacantidadrazonable de
informaciónacercade la distribución
de un conjuntode números,se puede
presentaraúnuna mayorcantidadde
informaciónal combinarel diagrama
lineal de dispersiónconel diagramade
caja, comoen la tabla2
Diagramas de dispersión bidimensionales
A diferenciade lasgráficasque hemosanalizado,undiagramade
dispersiónbidimensional se empleaparadescribirlarelaciónentre dos
diferentesmedicionescontinuas.Cadapuntode lagráficarepresenta
un par de valores;laescalapara una cantidadse marca enel eje
horizontal,oeje de lasabscisas,yla escalapara la otra cantidadenel
eje vertical,oeje de lasordenadas. Porejemplo,lafiguramuestrados
medidassimplesde lafuncióndel pulmón—capacidadforzadavital
(CFV) yel (VEF),volumen expiratorioforzadoenunsegundo,) — de 19
individuosasmáticosque participaronenunestudiosobre losefectos
físicosdel bióxidode azufre.
Gráficas de líneas
Una gráfica de líneasessimilara un diagramade dispersión
bidimensional enel hechode que se puede utilizarparailustrarla
relaciónentre cantidadescontinuas.De nuevo,cadapuntode la
gráficarepresentaunpar de valores.Eneste caso, sinembargo,cada
valorsobre el eje de lasabscisastiene unamedicióncorrespondiente
únicaen el eje de lasordenadas.Lospuntosadyacentesse unencon
líneasrectas.Por logeneral,laescalasobre el eje horizontal
representael tiempo.Comoconsecuencia,tenemoslaposibilidadde
trazar el cambiocronológicoenla cantidadsobre el eje vertical enun
periodoespecífico.Paracomparardos o más gruposrespectode una
cantidaddada,es posible presentarmásde unamediciónenel eje de
lasordenadas. . La figuradescribe lastendenciasde losgastosdel
cuidadode la saludenEstadosUnidosy Canadá entre 1970 y 1989.