SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
Frecuencia de aparición de letras                                                                                                1



     Frecuencia de aparición de letras
     El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia
     de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:
     • El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".
     • El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se
       llama Wenceslao, aumentará el número de "W".
     • El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc),
       que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
     • En el diccionario de la RAE la letra más frecuente es la A, pero en cualquier texto castellano, la frecuencia de las
       partículas "que", "el", "se", "me", etc. hace que la "e" sea más frecuente.
     • Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo,
       éstos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además,
       algunos autores omiten las tildes.
     • La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos
       corrientes, etc.) pueden o no tenerse en cuenta. La coma, punto son por ejemplo más frecuentes que más de la
       mitad de las letras.
     Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso
     para las letras más frecuentes.


     Porcentaje de aparición de letras
     Porcentaje de aparición de letras en
     español:[1]




                                                                 Frecuencia relativa de aparición de letras en español.
Frecuencia de aparición de letras                                                                                  2


                                                         Letra Porcentaje

                                                         A     12,53

                                                         B     1,42

                                                         C     4,68

                                                         D     5,86

                                                         E     13,68

                                                         F     0,69

                                                         G     1,01

                                                         H     0,70

                                                         I     6,25

                                                         J     0,44

                                                         K     0,01

                                                         L     4,97

                                                         M     3,15

                                                         N     6,71

                                                         O     8,68

                                                         P     2,51

                                                         Q     0,88

                                                         R     6,87

                                                         S     7,98

                                                         T     4,63

                                                         U     3,93

                                                         V     0,90

                                                         W     0,02

                                                         X     0,22

                                                         Y     0,90

                                                         Z     0,52


     Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J
     XWK
     A partir de los datos anteriores, se puede decir que:
     •   Las vocales ocuparán alrededor del 45% del texto.
     •   La E y la A son identificables fácilmente dado su porcentaje de aparición.
     •   Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%)
     •   Las seis letras menos frecuentes son: F,Z,J,X,W,K (sumadas tienen una frecuencia que no llega al 2%)
Frecuencia de aparición de letras                                               3


     Ejemplo concreto: el Quijote
     El texto del Quijote[2] contiene 1.640.502 letras:

                                                    Letra Cantidad Porcentaje

                                                    e     229188   14,0%

                                                    a     200492   12,2%

                                                    o     162512   9,9%

                                                    s     125726   7,7%

                                                    n     108440   6,6%

                                                    r     100953   6,2%

                                                    i     90070    5,5%

                                                    l     89141    5,4%

                                                    d     87237    5,3%

                                                    u     79471    4,8%

                                                    t     61749    3,8%

                                                    c     59435    3,6%

                                                    m     44658    2,7%

                                                    p     35464    2,2%

                                                    q     32483    2,0%

                                                    y     25115    1,5%

                                                    b     24146    1,5%

                                                    h     19920    1,2%

                                                    v     17855    1,1%

                                                    g     17225    1,0%

                                                    j     10530    0,6%

                                                    f     7581     0,5%

                                                    z     6491     0,4%

                                                    ñ     4241     0,3%

                                                    x     377      0,0%

                                                    w     2        0,0%

                                                    k     0        0,0%
Frecuencia de aparición de letras                                                                                                 4


     Otros sistemas
     Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje
     escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos,
     da preeminencia a la aparición de esta letra.


     Enlaces externos
     • Herramienta para el conteo de cartas y la creación de tablas de frecuencia, Carta de frecuencias de 20 idiomas [3]


     Referencias
     [1] Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
     [2] http:/ / www. gutenberg. org/ dirs/ etext99/ 2donq10. zip
     [3] http:/ / www. sttmedia. com/ charactercounter
Fuentes y contribuyentes del artículo                                                                                                                                                             5



     Fuentes y contribuyentes del artículo
     Frecuencia de aparición de letras  Fuente: http://es.wikipedia.org/w/index.php?oldid=29395687  Contribuyentes: C. París., Chvsanchez, Davius, Dianai, Eloy, Hansen, JMPerez, Joselarrucea,
     R2D2!, RedTony, Tico, 12 ediciones anónimas




     Fuentes de imagen, Licencias y contribuyentes
     Imagen:Frecuencia de uso de letras en español.PNG  Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Frecuencia_de_uso_de_letras_en_español.PNG  Licencia: GNU Free
     Documentation License  Contribuyentes: Original uploader was Tico at es.wikipedia




     Licencia
     Creative Commons Attribution-Share Alike 3.0 Unported
     http:/ / creativecommons. org/ licenses/ by-sa/ 3. 0/

Más contenido relacionado

Más de G Hoyos A

Presentacion cripto transp_manuel_lucena
Presentacion cripto transp_manuel_lucenaPresentacion cripto transp_manuel_lucena
Presentacion cripto transp_manuel_lucenaG Hoyos A
 
Transposicion
TransposicionTransposicion
TransposicionG Hoyos A
 
Sellado de tiempo_timestamp
Sellado de tiempo_timestampSellado de tiempo_timestamp
Sellado de tiempo_timestampG Hoyos A
 
Protocolo gestor claves
Protocolo gestor clavesProtocolo gestor claves
Protocolo gestor clavesG Hoyos A
 
Problema rsa
Problema rsaProblema rsa
Problema rsaG Hoyos A
 
Número primo fuerte
Número primo fuerteNúmero primo fuerte
Número primo fuerteG Hoyos A
 
Metodo kasiski
Metodo kasiskiMetodo kasiski
Metodo kasiskiG Hoyos A
 
Modos de operación_de_una_unidad_de_cifrado_por_bloques
Modos de operación_de_una_unidad_de_cifrado_por_bloquesModos de operación_de_una_unidad_de_cifrado_por_bloques
Modos de operación_de_una_unidad_de_cifrado_por_bloquesG Hoyos A
 
Generador pseudoaleatorio de_números
Generador pseudoaleatorio de_númerosGenerador pseudoaleatorio de_números
Generador pseudoaleatorio de_númerosG Hoyos A
 
Funcion resumen
Funcion resumenFuncion resumen
Funcion resumenG Hoyos A
 
Funcion hash
Funcion hashFuncion hash
Funcion hashG Hoyos A
 
Firma elgamal
Firma elgamalFirma elgamal
Firma elgamalG Hoyos A
 
Firma digital
Firma digitalFirma digital
Firma digitalG Hoyos A
 
Esteganografía
EsteganografíaEsteganografía
EsteganografíaG Hoyos A
 

Más de G Hoyos A (20)

Presentacion cripto transp_manuel_lucena
Presentacion cripto transp_manuel_lucenaPresentacion cripto transp_manuel_lucena
Presentacion cripto transp_manuel_lucena
 
S box
S boxS box
S box
 
Xor
XorXor
Xor
 
Unixsec
UnixsecUnixsec
Unixsec
 
Transposicion
TransposicionTransposicion
Transposicion
 
Sellado de tiempo_timestamp
Sellado de tiempo_timestampSellado de tiempo_timestamp
Sellado de tiempo_timestamp
 
Protocolo gestor claves
Protocolo gestor clavesProtocolo gestor claves
Protocolo gestor claves
 
Problema rsa
Problema rsaProblema rsa
Problema rsa
 
Pki
PkiPki
Pki
 
Número primo fuerte
Número primo fuerteNúmero primo fuerte
Número primo fuerte
 
Metodo kasiski
Metodo kasiskiMetodo kasiski
Metodo kasiski
 
Modos de operación_de_una_unidad_de_cifrado_por_bloques
Modos de operación_de_una_unidad_de_cifrado_por_bloquesModos de operación_de_una_unidad_de_cifrado_por_bloques
Modos de operación_de_una_unidad_de_cifrado_por_bloques
 
Hc
HcHc
Hc
 
Generador pseudoaleatorio de_números
Generador pseudoaleatorio de_númerosGenerador pseudoaleatorio de_números
Generador pseudoaleatorio de_números
 
Funcion resumen
Funcion resumenFuncion resumen
Funcion resumen
 
Funcion hash
Funcion hashFuncion hash
Funcion hash
 
Firma elgamal
Firma elgamalFirma elgamal
Firma elgamal
 
Firma digital
Firma digitalFirma digital
Firma digital
 
Esteganografía
EsteganografíaEsteganografía
Esteganografía
 
Entropia
EntropiaEntropia
Entropia
 

Frecuencia aparicion letras

  • 1. Frecuencia de aparición de letras 1 Frecuencia de aparición de letras El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: • El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R". • El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se llama Wenceslao, aumentará el número de "W". • El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos. • En el diccionario de la RAE la letra más frecuente es la A, pero en cualquier texto castellano, la frecuencia de las partículas "que", "el", "se", "me", etc. hace que la "e" sea más frecuente. • Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, éstos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes. • La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma, punto son por ejemplo más frecuentes que más de la mitad de las letras. Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes. Porcentaje de aparición de letras Porcentaje de aparición de letras en español:[1] Frecuencia relativa de aparición de letras en español.
  • 2. Frecuencia de aparición de letras 2 Letra Porcentaje A 12,53 B 1,42 C 4,68 D 5,86 E 13,68 F 0,69 G 1,01 H 0,70 I 6,25 J 0,44 K 0,01 L 4,97 M 3,15 N 6,71 O 8,68 P 2,51 Q 0,88 R 6,87 S 7,98 T 4,63 U 3,93 V 0,90 W 0,02 X 0,22 Y 0,90 Z 0,52 Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J XWK A partir de los datos anteriores, se puede decir que: • Las vocales ocuparán alrededor del 45% del texto. • La E y la A son identificables fácilmente dado su porcentaje de aparición. • Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%) • Las seis letras menos frecuentes son: F,Z,J,X,W,K (sumadas tienen una frecuencia que no llega al 2%)
  • 3. Frecuencia de aparición de letras 3 Ejemplo concreto: el Quijote El texto del Quijote[2] contiene 1.640.502 letras: Letra Cantidad Porcentaje e 229188 14,0% a 200492 12,2% o 162512 9,9% s 125726 7,7% n 108440 6,6% r 100953 6,2% i 90070 5,5% l 89141 5,4% d 87237 5,3% u 79471 4,8% t 61749 3,8% c 59435 3,6% m 44658 2,7% p 35464 2,2% q 32483 2,0% y 25115 1,5% b 24146 1,5% h 19920 1,2% v 17855 1,1% g 17225 1,0% j 10530 0,6% f 7581 0,5% z 6491 0,4% ñ 4241 0,3% x 377 0,0% w 2 0,0% k 0 0,0%
  • 4. Frecuencia de aparición de letras 4 Otros sistemas Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos, da preeminencia a la aparición de esta letra. Enlaces externos • Herramienta para el conteo de cartas y la creación de tablas de frecuencia, Carta de frecuencias de 20 idiomas [3] Referencias [1] Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255. [2] http:/ / www. gutenberg. org/ dirs/ etext99/ 2donq10. zip [3] http:/ / www. sttmedia. com/ charactercounter
  • 5. Fuentes y contribuyentes del artículo 5 Fuentes y contribuyentes del artículo Frecuencia de aparición de letras  Fuente: http://es.wikipedia.org/w/index.php?oldid=29395687  Contribuyentes: C. París., Chvsanchez, Davius, Dianai, Eloy, Hansen, JMPerez, Joselarrucea, R2D2!, RedTony, Tico, 12 ediciones anónimas Fuentes de imagen, Licencias y contribuyentes Imagen:Frecuencia de uso de letras en español.PNG  Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Frecuencia_de_uso_de_letras_en_español.PNG  Licencia: GNU Free Documentation License  Contribuyentes: Original uploader was Tico at es.wikipedia Licencia Creative Commons Attribution-Share Alike 3.0 Unported http:/ / creativecommons. org/ licenses/ by-sa/ 3. 0/