Mecánica Cuántica: Notas de Clase
Rodolfo Alexander Diaz Sanchez
Universidad Nacional de Colombia
Departamento de Fı́sica
Bogotá, Colombia
23 de agosto de 2015
Índice general
1. Linear or vector spaces 14
1.1. Definition of a linear vector space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2. Algebraic properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. Vector subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4. Dimension and bases in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5. Mappings and transformations in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Linear transformations of a vector space into itself . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.1. Projection operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7. Normed vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7.1. Convergent sequences, cauchy sequences and completeness . . . . . . . . . . . . . . . . . . . 23
1.7.2. The importance of completeness in quantum mechanics . . . . . . . . . . . . . . . . . . . . 24
1.7.3. The concept of continuity and its importance in Physics . . . . . . . . . . . . . . . . . . . . 24
1.8. Banach Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.1. Continuous linear transformations of a Banach space into scalars . . . . . . . . . . . . . . . 25
1.8.2. Continuous linear transformations of a Banach space into itself . . . . . . . . . . . . . . . . 25
1.9. Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.9.1. Orthonormal sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.9.2. The conjugate space H∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.9.3. The conjugate and the adjoint of an operator . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.10. Normal operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.11. Self-Adjoint operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.12. Unitary operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.13. Projections on Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.14. Theory of representations in finite-dimensional vector spaces . . . . . . . . . . . . . . . . . . . . . . 37
1.14.1. Representation of vectors and operators in a given basis . . . . . . . . . . . . . . . . . . . . 37
1.14.2. Change of coordinates of vectors under a change of basis . . . . . . . . . . . . . . . . . . . . 40
1.14.3. Change of the matrix representative of linear transformations under a change of basis . . . 41
1.15. Active and passive transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.16. Theory of representations on finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . 42
1.16.1. Linear operators in finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . 44
1.17. Determinants and traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.18. Rectangular matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.19. The eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.19.1. Matrix representative of the eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.19.2. Eigenvectors and the canonical problem of matrices . . . . . . . . . . . . . . . . . . . . . . 50
1.20. Normal operators and the spectral theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces . . . 55
1.21. The concept of “hyperbasis” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2
ÍNDICE GENERAL 3
1.22. Definition of an observable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.23. Complete sets of commuting observables (C.S.C.O.) . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.24. Some terminology concerning quantum mechanics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.25. The Hilbert Space L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.25.1. The wave function space ̥ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.26. Discrete orthonormal basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.26.1. Función delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.27. Closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.28. Introduction of hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.29. Closure relation with hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.30. Inner product and norm in terms of a hyperbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.31. Some specific continuous bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.31.1. Plane waves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.31.2. “Delta functions” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
1.32. Tensor products of vector spaces, definition and properties . . . . . . . . . . . . . . . . . . . . . . . 70
1.32.1. Scalar products in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.32.2. Tensor product of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.32.3. The eigenvalue problem in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . 72
1.32.4. Complete sets of commuting observables in tensor product spaces . . . . . . . . . . . . . . . 74
1.33. Restrictions of an operator to a subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.34. Functions of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.34.1. Some commutators involving functions of operators . . . . . . . . . . . . . . . . . . . . . . . 76
1.35. Differentiation of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.35.1. Some useful formulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.36. State space and Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.37. Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.37.1. Elements of the dual or conjugate space E∗
r . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.37.2. The correspondence between bras and kets with hyperbases . . . . . . . . . . . . . . . . . . 81
1.38. The action of linear operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.38.1. Projectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.39. Hermitian conjugation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.39.1. The adjoint operator A† in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.39.2. Mathematical objects and hermitian conjugation in Dirac notation . . . . . . . . . . . . . . 86
1.40. Theory of representations of E in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.40.1. Orthonormalization and closure relation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.40.2. Representation of operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.41. Change of representations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
1.41.1. Transformation of the coordinates of a ket . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.41.2. Transformation of the coordinates of a bra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.41.3. Transformation of the matrix elements of an operator . . . . . . . . . . . . . . . . . . . . . 95
1.42. Representation of the eigenvalue problem in Dirac notation . . . . . . . . . . . . . . . . . . . . . . 95
1.42.1. C.S.C.O. in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.43. The continuous bases |ri and |pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.43.1. Orthonormalization and closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.43.2. Coordinates of kets and bras in {|ri} and {|pi} . . . . . . . . . . . . . . . . . . . . . . . . . 97
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa . . . . . . . . 98
1.43.4. The R and P operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
1.43.5. The eigenvalue problem for R and P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
1.43.6. Some properties of Fourier transforms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4 ÍNDICE GENERAL
1.44. General properties of two conjugate observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
1.44.1. The eigenvalue problem of Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
1.44.2. The action of Q, P and S (λ) in the {|qi} basis . . . . . . . . . . . . . . . . . . . . . . . . . 105
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q . . . . . . . . . . . . 106
1.45. Diagonalization of a 2 × 2 hermitian matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
1.45.1. Formulation of the problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
1.45.2. Eigenvalues and eigenvectors of K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
1.45.3. Eigenvalues and eigenvectors of H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2. Construcción fenomenológica de los postulados 111
2.1. La radiación del cuerpo negro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.2. El efecto fotoeléctrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
2.3. El efecto compton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
2.4. Espectroscopı́a, estabilidad del átomo y teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.4.1. La teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.4.2. Predicciones de la teorı́a de Bohr para átomos con un electrón . . . . . . . . . . . . . . . . 117
2.5. Las reglas de cuantización de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.5.1. El átomo de Bohr bajo las reglas de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . 119
2.5.2. Cuantización de Planck con las reglas de Wilson y Sommerfeld . . . . . . . . . . . . . . . . 120
2.5.3. La teorı́a relativista de Sommerfeld y la estructura fina del átomo de Hidrógeno . . . . . . . 121
2.6. Los postulados de De Broglie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
2.6.1. Propiedades de las ondas piloto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.6.2. Corroboración experimental de los postulados de De Broglie . . . . . . . . . . . . . . . . . . 125
2.6.3. Las reglas de cuantización de Bohr a la luz de los postulados de De Broglie . . . . . . . . . 125
2.7. Sı́ntesis de los resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.8. El experimento de Young de la doble rendija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.8.1. Interpretación mecano-cuántica de la dualidad onda partı́cula . . . . . . . . . . . . . . . . . 131
2.9. Medición y preparación de un sistema: Descomposición espectral . . . . . . . . . . . . . . . . . . . 132
2.10. Dualidad onda partı́cula para la materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
2.11. Aspectos ondulatorios de una partı́cula material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
2.11.1. Estados cuánticos arbitrarios como superposición de ondas planas . . . . . . . . . . . . . . 138
2.11.2. Perfil instantáneo del paquete de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
2.11.3. El principio de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
2.12. El principio de complementariedad para la dualidad onda partı́cula y su relación con el principio
de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
2.13. Evolución temporal de paquetes de ondas libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2.14. Caracterización de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.14.1. Integrales básicas para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.14.2. Perfiles de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.14.3. Relaciones de incertidumbre para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . 151
2.15. Evolución temporal de paquetes de onda gaussianos (opcional) . . . . . . . . . . . . . . . . . . . . 151
2.15.1. Dispersión del paquete de onda gaussiano (opcional) . . . . . . . . . . . . . . . . . . . . . . 152
3. Ecuación de Schrödinger y sus propiedades 155
3.1. Plausibilidad de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.2. Ecuación de Schrödinger con potencial escalar independiente del tiempo . . . . . . . . . . . . . . . 158
3.3. Propiedades generales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.3.1. Determinismo en las soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
3.3.2. Principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
ÍNDICE GENERAL 5
3.3.3. Conservación de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
3.3.4. La ecuación de continuidad para la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 162
3.3.5. Expresión polar de la corriente de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 164
3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos . . . . . . . . . . . . . . . . . 165
3.5. Potenciales rectangulares, análogo óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto . . . . . . . 167
3.5.2. Expresión para la corriente en regiones de potencial constante . . . . . . . . . . . . . . . . . 168
3.6. El potencial escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
3.6.1. E > V0, reflexión parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
3.6.2. E < V0; reflexión total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
3.7. Barrera de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
3.7.1. E > V0, resonancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
3.7.2. Caso E < V0: Efecto túnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
3.8. Pozo de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.8.1. Partı́cula con energı́a −V0 < E < 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.8.2. Partı́cula con energı́a E > 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
4. Enunciado matemático de los postulados 192
4.1. Los fenómenos clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
4.2. Los fenómenos cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
4.3. Establecimiento de los postulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
4.3.1. Descripción de los estados y las cantidades fı́sicas . . . . . . . . . . . . . . . . . . . . . . . . 195
4.3.2. El proceso de medición y la distribución de probabilidad . . . . . . . . . . . . . . . . . . . . 196
4.3.3. Relevancia fı́sica de las fases en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . 199
4.3.4. El proceso de medida y la reducción del paquete de onda . . . . . . . . . . . . . . . . . . . 200
4.3.5. Evolución fı́sica de los sistemas cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
4.3.6. Reglas de cuantización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5. Consecuencias fenomenológicas de los postulados 205
5.1. Consideraciones estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.1.1. Valor medio de un observable para un sistema en un estado dado . . . . . . . . . . . . . . . 206
5.1.2. Valor esperado para los observables X, P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.1.3. Valor esperado para el commutador de dos observables . . . . . . . . . . . . . . . . . . . . . 209
5.1.4. La desviación media cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
5.2. Observables compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
5.3. Observables no compatibles e incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.4. Desviación media cuadrática y principio de incertidumbre . . . . . . . . . . . . . . . . . . . . . . . 215
5.4.1. Paquetes de mı́nima incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.5. Preparación de un estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
5.6. Propiedades adicionales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . 220
5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional) . . . . . . . . . . . 220
5.7. Evolución temporal del valor esperado de un observable . . . . . . . . . . . . . . . . . . . . . . . . 221
5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest . . . . . . . . 222
5.8. Ecuación de Schrödinger para sistemas conservativos . . . . . . . . . . . . . . . . . . . . . . . . . . 225
5.8.1. Estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
5.8.2. Constantes de movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
5.8.3. Frecuencias de Bohr de un sistema y reglas de selección . . . . . . . . . . . . . . . . . . . . 228
5.8.4. Relación de incertidumbre entre tiempo y energı́a para sistemas conservativos . . . . . . . . 229
5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional . . . . . . . . . 231
6 ÍNDICE GENERAL
5.9. Consecuencias fı́sicas del principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica . . . . . . . . . . . . . . . . . . . . 232
5.9.2. Efectos de interferencia en fotones polarizados . . . . . . . . . . . . . . . . . . . . . . . . . 234
5.9.3. Suma sobre los estados intermedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
5.10. Principio de superposición con varios estados asociados a una medida . . . . . . . . . . . . . . . . 237
5.10.1. El principio de superposición para valores propios degenerados . . . . . . . . . . . . . . . . 237
5.10.2. Aparatos insuficientemente selectivos en la medida . . . . . . . . . . . . . . . . . . . . . . . 238
5.11. Discusión general sobre el fenómeno de interferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 240
5.12. Medición insuficiente de espectros contı́nuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
5.13. Reducción del paquete de onda para espectro continuo . . . . . . . . . . . . . . . . . . . . . . . . . 242
6. Aplicación de los postulados con información parcial 244
6.1. Aplicación de los postulados al medir sobre un subsistema . . . . . . . . . . . . . . . . . . . . . . . 244
6.1.1. Interpretación fı́sica de los estados que son productos tensoriales . . . . . . . . . . . . . . . 245
6.1.2. Significado fı́sico de estados que no son productos tensoriales . . . . . . . . . . . . . . . . . 247
6.2. Operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
6.2.1. El concepto de mezcla estadı́stica de estados . . . . . . . . . . . . . . . . . . . . . . . . . . 248
6.2.2. Estados puros y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
6.2.3. Mezcla estadı́stica de estados: estados no puros . . . . . . . . . . . . . . . . . . . . . . . . . 251
6.2.4. Propiedades generales del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . 252
6.2.5. Populaciones y coherencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
6.3. Aplicaciones del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
6.3.1. Sistema en equilibrio termodinámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto de
traza parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
6.3.3. Traza parcial y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
7. Formulaciones alternativas de la mecánica cuántica 260
7.1. Operador evolución temporal: definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . 260
7.1.1. Operador evolución temporal para sistemas conservativos . . . . . . . . . . . . . . . . . . . 262
7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional) . . . . . . . . . . 262
7.2. Bras, kets y observables equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
7.2.1. La transformada de un operador y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . 264
7.3. La imagen de Schrödinger y la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . 265
7.3.1. Algunos sistemas simples en la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . 266
7.4. La imagen de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8. El oscilador armónico cuántico 270
8.1. Propiedades generales del oscilador armónico cuántico unidimensional . . . . . . . . . . . . . . . . 270
8.2. El problema de valores propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
8.3. Determinación del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
8.3.1. Interpretación de los operadores a, a† y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.3.2. Estudio de la degeneración del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.4. Estados propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.4.1. Construcción de los kets propios con base en el ket del estado base . . . . . . . . . . . . . . 277
8.4.2. Ortonormalidad de los kets propios (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . 278
8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano . . 280
8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi} . . . . . . . . . . . . . . . 281
8.6. Valores esperados y dispersión en un estado estacionario del oscilador . . . . . . . . . . . . . . . . 283
ÍNDICE GENERAL 7
8.7. Propiedades del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
8.8. Evolución temporal de los observables del oscilador armónico . . . . . . . . . . . . . . . . . . . . . 287
8.9. Oscilador armónico cargado en un campo eléctrico uniforme (Opcional) . . . . . . . . . . . . . . . 289
8.9.1. Solución utilizando el operador traslación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
9. Estados cuasi-clásicos del oscilador armónico 293
9.1. Parametrización del oscilador clásico con parámetros cuánticos . . . . . . . . . . . . . . . . . . . . 293
9.2. Construcción de los estados coherentes o cuasi-clásicos . . . . . . . . . . . . . . . . . . . . . . . . . 294
9.3. Propiedades de los estados |αi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
9.3.1. Valores permitidos de la energı́a para un estado coherente |αi . . . . . . . . . . . . . . . . . 298
9.3.2. Cálculo de los observables X, P en el estado |αi . . . . . . . . . . . . . . . . . . . . . . . . . 300
9.4. Generador y función de onda de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . 300
9.5. Los estados coherentes son completos pero no ortogonales . . . . . . . . . . . . . . . . . . . . . . . 303
9.6. Evolución temporal de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico . . . . . . . . . . . . . . . . . 307
10.Teorı́a general del momento angular en mecánica cuántica 308
10.1. Definición de momento angular por sus propiedades de conmutación . . . . . . . . . . . . . . . . . 309
10.1.1. Cuantización del momento angular orbital . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
10.1.2. Definición de momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
10.2. Propiedades algebráicas del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
10.2.1. Álgebra de los operadores J2, J3, J+, J− . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
10.3. Estructura de valores y vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
10.3.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
10.3.2. Caracterı́sticas generales de los valores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . 312
10.3.3. Determinación de los valores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . 314
10.4. Propiedades de los vectores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
10.4.1. Generación de autoestados por medio de los operadores J+ y J− . . . . . . . . . . . . . . . 317
10.5. Construcción de una base estándar con base en un C.S.C.O . . . . . . . . . . . . . . . . . . . . . . 319
10.5.1. Descomposición de E en subespacios del tipo E (j, k) . . . . . . . . . . . . . . . . . . . . . . 320
10.6. Representaciones matriciales de los operadores momento angular . . . . . . . . . . . . . . . . . . . 321
10.6.1. Representaciones matriciales del tipo (Ji)(j)
en la base estándar para j arbitrario . . . . . . 322
10.6.2. Representaciones matriciales en la base estándar para j = 0 . . . . . . . . . . . . . . . . . . 323
10.6.3. Representaciones matriciales en la base estándar para j = 1/2 . . . . . . . . . . . . . . . . . 323
10.6.4. Representaciones matriciales en la base estándar para j = 1 . . . . . . . . . . . . . . . . . . 325
11.Propiedades de los momentos angulares orbitales 326
11.1. Momentos angulares orbitales como operadores diferenciales . . . . . . . . . . . . . . . . . . . . . . 329
11.2. Valores permitidos de l y m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
11.3. Propiedades fundamentales de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . 331
11.3.1. Ortonormalidad y completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
11.3.2. Propiedades de paridad y conjugación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
11.3.3. Armónicos esféricos de la forma Yl,0 (θ) y polinomios de Legendre . . . . . . . . . . . . . . . 333
11.3.4. Teorema de adición de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . 333
11.4. Bases estándar de una función de onda sin espı́n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
11.5. Valores esperados y dispersión para sistemas en un estado |l, m, ki . . . . . . . . . . . . . . . . . . 335
11.6. Probabilidades asociadas a la medida de L2 y L3 en un estado arbitrario . . . . . . . . . . . . . . . 337
11.7. Ejemplos de cálculos de probabilidad para L2 y L3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
11.7.1. Función de onda parcialmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
8 ÍNDICE GENERAL
11.7.2. Función de onda totalmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
11.7.3. Comportamiento de la probabilidad con θ y ϕ . . . . . . . . . . . . . . . . . . . . . . . . . . 341
12.Interacciones centrales en mecánica cuántica 343
12.1. El problema de dos cuerpos en Mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
12.2. Reducción del problema de dos cuerpos en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . 346
12.2.1. Autovalores y autofunciones del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . 347
12.3. El problema clásico de una partı́cula sometida a una fuerza central . . . . . . . . . . . . . . . . . . 348
12.4. Hamiltoniano cuántico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
12.5. Solución general del problema de valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
12.5.1. La ecuación radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
12.5.2. Comportamiento de la solución radial en el origen . . . . . . . . . . . . . . . . . . . . . . . 352
12.6. Estados estacionarios de una partı́cula en un potencial central . . . . . . . . . . . . . . . . . . . . . 353
12.6.1. Degeneración de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
13.Átomos hidrogenoides 356
13.1. El átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
13.2. Problema de valores propios del átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . 357
13.3. Solución de la ecuación radial por series de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . 359
13.3.1. Serie de potencias radial y relaciones de recurrencia . . . . . . . . . . . . . . . . . . . . . . 359
13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie . . . . . . . . . . . . . . . . . . . . . 361
13.3.3. Coeficientes del polinomio radial en términos de c0 . . . . . . . . . . . . . . . . . . . . . . . 362
13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1 . . . . . . . . . . . . . . . . . . . . . 363
13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2 . . . . . . . . . . . . . . . . . . . . . 364
13.3.6. Cálculo de c0 y de la función radial para l = k = 1 . . . . . . . . . . . . . . . . . . . . . . . 365
13.3.7. Estructura de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
13.4. Parámetros atómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
13.5. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
13.6. Discusión de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
13.6.1. Dependencia angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
14.Corrientes de probabilidad y acoples magnéticos en átomos 372
14.1. Corrientes de probabilidad para el átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . 372
14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético . . . . . . . . . . 373
14.2. Átomo de hidrógeno en un campo magnético uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 375
14.2.1. Hamiltoniano del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
14.2.2. Estimación numérica de las contribuciones H0, H1 y H2 . . . . . . . . . . . . . . . . . . . . 377
14.2.3. Término diamagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
14.2.4. Término paramagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
14.3. Efecto Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética . . . . . . . . . . . . . 380
14.3.2. Oscilaciones dipolares eléctricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
14.3.3. Frecuencia y polarización de la radiación emitida . . . . . . . . . . . . . . . . . . . . . . . . 382
15.Momento angular intrı́nseco 384
15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un campo magnético . . . . . . . . 384
15.2. Experimento de Stern-Gerlach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
15.3. Resultados del experimento y el momento angular intrı́nseco . . . . . . . . . . . . . . . . . . . . . . 386
15.4. Evidencia experimental del momento angular intrı́nseco del electrón . . . . . . . . . . . . . . . . . 388
15.4.1. Estructura fina de las lı́neas espectrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
ÍNDICE GENERAL 9
15.4.2. Efecto Zeeman anómalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
15.5. Momento angular intrı́nseco en la cuántica no-relativista . . . . . . . . . . . . . . . . . . . . . . . . 389
15.6. Propiedades de un momento angular 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
15.6.1. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
15.6.2. Representación matricial de los observables de espı́n . . . . . . . . . . . . . . . . . . . . . . 394
15.7. Descripción no-relativista de partı́culas con espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . 395
15.7.1. Construcción de los estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
15.7.2. Construcción de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
15.8. Representación en la base |p, εi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
15.9. Cálculos de probabilidad para estados de espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
16.Adición de momentos angulares 404
16.1. El problema clásico de la adición del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . 404
16.2. Momento angular total en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
16.2.1. Dos partı́culas sin espı́n bajo una interacción central . . . . . . . . . . . . . . . . . . . . . . 404
16.2.2. Una partı́cula con espı́n bajo una interacción central . . . . . . . . . . . . . . . . . . . . . . 406
16.2.3. Análisis general de dos momentos angulares asociados a una fuerza central . . . . . . . . . 407
16.3. La adición de dos momentos angulares es otro momento angular . . . . . . . . . . . . . . . . . . . 408
16.4. Adición de dos momentos angulares con j(1) = j(2) = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . 409
16.4.1. Autovalores de J3 y su degeneración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
16.4.2. Diagonalización de J2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
16.4.3. Autoestados de J2 y J3: singlete y triplete . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
16.5. Método general de adición de dos momentos angulares arbitrarios . . . . . . . . . . . . . . . . . . . 413
16.5.1. Formación del sistema a partir de dos subsistemas . . . . . . . . . . . . . . . . . . . . . . . 414
16.5.2. Momento angular total y sus relaciones de conmutación . . . . . . . . . . . . . . . . . . . . 415
16.5.3. Cambio de base a realizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2. . . . . . . . . . . . . . . . . . . 416
16.5.5. Autovalores de J3 y su degeneración: Caso general . . . . . . . . . . . . . . . . . . . . . . . 417
16.5.6. Autovalores de J2 : caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
16.6. Autovectores comunes de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
16.6.1. Caso especial j1 = j2 = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
16.7. Autovectores de J2 y J3 : Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
16.7.1. Determinación de los vectores |JMi del subespacio E (j1 + j2) . . . . . . . . . . . . . . . . . 423
16.7.2. Determinación de los vectores |JMi en los otros subespacios . . . . . . . . . . . . . . . . . 424
16.8. Transformación de la base desacoplada a la base acoplada . . . . . . . . . . . . . . . . . . . . . . . 425
17.Propiedades generales de los sistemas de dos estados 428
17.1. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
17.2. Efecto del acople sobre la energı́a y los estados estacionarios . . . . . . . . . . . . . . . . . . . . . . 429
17.2.1. Efecto del acople sobre los estados estacionarios del sistema . . . . . . . . . . . . . . . . . . 429
17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios . . . . . . . . 431
17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios . . . . . . . . 432
17.3. Evolución del vector de estado: oscilación entre dos estados . . . . . . . . . . . . . . . . . . . . . . 432
18.Teorı́a cuántica de la dispersión 436
18.1. Teorı́a clásica de la dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
18.2. Diferentes tipos de colisiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
18.3. Ejemplos de dispersión en mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
18.3.1. Dispersión elástica por esfera rı́gida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
10 ÍNDICE GENERAL
18.3.2. Dispersión de Rutherford . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
18.4. Teorı́a cuántica de la dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
18.5. Estados estacionarios de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
18.5.1. Condiciones fı́sicas sobre el paquete de ondas . . . . . . . . . . . . . . . . . . . . . . . . . . 445
18.6. Cálculo de la sección eficaz usando corrientes de probabilidad . . . . . . . . . . . . . . . . . . . . . 448
18.7. Ecuación integral de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
18.7.1. Ecuación integral y función de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
18.7.2. Determinación de la función de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
18.7.3. Solución de la ecuación integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
18.8. Aproximación de Born . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
18.8.1. Rango de validez de la aproximación de Born . . . . . . . . . . . . . . . . . . . . . . . . . . 457
18.8.2. Aproximación de Born para el potencial de Yukawa . . . . . . . . . . . . . . . . . . . . . . 458
19.Teorı́a cuántica de la dispersión II: Ondas parciales 461
19.1. Estados estacionarios de partı́cula libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
19.2. Estados estacionarios de partı́cula libre con momento bien definido: Ondas planas . . . . . . . . . . 462
19.3. Estados estacionarios de partı́cula libre con momento angular bien definido: Ondas esféricas libres. 463
19.4. Caracterización de las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
19.4.1. Álgebra de generadores de ondas esféricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
19.4.2. Relaciones de recurrencia para las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . 465
19.4.3. Solución de la ecuación radial para l = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
19.4.4. Generación de ondas esféricas libres con l 6= 0, a través de P+ y L± . . . . . . . . . . . . . . 468
19.4.5. Ondas esféricas libres normalizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
19.4.6. Ortonormalidad de las funciones esféricas libres . . . . . . . . . . . . . . . . . . . . . . . . . 471
19.4.7. Comportamiento asintótico de las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . 474
19.4.8. Relación entre las ondas esféricas libres y las planas . . . . . . . . . . . . . . . . . . . . . . 476
19.4.9. Interpretación fı́sica de las ondas esférica libres . . . . . . . . . . . . . . . . . . . . . . . . . 479
19.5. Ondas parciales en el potencial V (r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
19.5.1. Ondas parciales en potenciales de rango finito . . . . . . . . . . . . . . . . . . . . . . . . . . 483
19.5.2. Sección eficaz en términos de los corrimientos de fase δl . . . . . . . . . . . . . . . . . . . . 484
19.5.3. Dispersión por esfera rı́gida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
19.6. Colisiones con absorción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
19.6.1. Sección eficaz en procesos absortivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
19.6.2. Teorema óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493
20.Teorı́a estacionaria de perturbaciones 495
20.1. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
20.2. Solución aproximada para los valores propios de H (λ) . . . . . . . . . . . . . . . . . . . . . . . . . 497
20.3. Perturbación de un nivel no degenerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
20.3.1. Corrección de primer orden para la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
20.3.2. Corrección de primer orden para el autovector . . . . . . . . . . . . . . . . . . . . . . . . . 501
20.3.3. Corrección de segundo orden para la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . 502
20.3.4. Corrección de segundo orden para el estado . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
20.3.5. Cota superior para ε2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
20.4. Perturbación de un nivel degenerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
20.4.1. Comportamiento de subniveles degenerados a más alto orden en perturbaciones . . . . . . . 505
20.5. Consideraciones generales sobre teorı́a estacionaria de perturbaciones . . . . . . . . . . . . . . . . . 506
20.6. Perturbaciones estacionarias sobre el oscilador armónico . . . . . . . . . . . . . . . . . . . . . . . . 507
20.6.1. Orden de magnitud de los observables no perturbados . . . . . . . . . . . . . . . . . . . . . 507
ÍNDICE GENERAL 11
20.6.2. Parametrización de la perturbación al oscilador con potencial lineal adicional . . . . . . . . 508
20.6.3. Perturbación al oscilador armónico con potencial cuadrático . . . . . . . . . . . . . . . . . . 510
20.6.4. Perturbación del oscilador armónico por un potencial cúbico . . . . . . . . . . . . . . . . . 511
21.Método variacional 515
21.1. Descripción del método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
21.2. Implementación del método variacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
21.3. Funciones de prueba restringidas a un subespacio de E . . . . . . . . . . . . . . . . . . . . . . . . . 518
21.4. Espectro del oscilador armónico por métodos variacionales . . . . . . . . . . . . . . . . . . . . . . . 519
21.4.1. Estimación del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
21.4.2. Estimación del primer estado excitado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 520
21.5. Espectro del oscilador armónico con otras funciones de prueba . . . . . . . . . . . . . . . . . . . . 521
22.Teorı́a de perturbaciones dependiente del tiempo 522
22.1. Solución perturbativa de la ecuación de Schrödinger dependiente del tiempo . . . . . . . . . . . . . 523
22.1.1. Estado del sistema a primer orden en λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
22.1.2. Probabilidad de transición a segundo orden en λ . . . . . . . . . . . . . . . . . . . . . . . . 526
22.2. Perturbaciones sinusoidales y constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
22.3. Perturbación senoidal entre dos estados discretos: resonancias . . . . . . . . . . . . . . . . . . . . . 528
22.3.1. Ancho de resonancia e incertidumbre energı́a tiempo . . . . . . . . . . . . . . . . . . . . . . 529
22.3.2. Condiciones para la validez del método perturbativo . . . . . . . . . . . . . . . . . . . . . . 530
22.4. Acoplamientos con estados del espectro contı́nuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533
22.4.1. El caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
22.4.2. Regla de oro de Fermi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
22.4.3. Probabilidad de transición hacia el contı́nuo para perturbación senoidal . . . . . . . . . . . 536
22.4.4. Dispersión y regla de oro de Fermi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536
23.Estructura fina e hiperfina del átomo de Hidrógeno 538
23.1. El Hamiltoniano de estructura fina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
23.1.1. Orden de Magnitud de H0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539
23.1.2. Término de corrección cinética Wmv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
23.1.3. Acoplamiento espı́n-órbita WSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
23.1.4. Término de Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
23.2. Estructura hiperfina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543
23.2.1. Interpretación de los términos en la estructura hiperfina . . . . . . . . . . . . . . . . . . . . 543
23.3. Estructura fina del nivel n = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544
23.4. Representación matricial de la estructura fina para el nivel n = 2 . . . . . . . . . . . . . . . . . . . 545
23.5. Cálculo de los términos cinético y de Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
23.5.1. Cálculo de h1/Ri ,


1/R2

y


1/R3

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548
23.5.2. Cálculo de hWmvi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550
23.5.3. El valor medio hWDi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550
23.6. Cálculo del término de espı́n-órbita WSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
23.6.1. Cálculo del término espı́n-angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
23.6.2. Cálculo del término radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
23.6.3. Contribución espı́n-órbita completa para la subcapa 2p . . . . . . . . . . . . . . . . . . . . . 553
23.7. Sı́ntesis de resultados sobre la estructura fina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
23.8. La estructura fina para n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
23.9. Estructura hiperfina para n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
23.9.1. Cálculo del factor orbital R para Whf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
12 ÍNDICE GENERAL
23.9.2. Cálculo del factor de espı́n para Whf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
23.9.3. Espectro hiperfino del nivel 1s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559
24.Campos externos sobre el átomo de Hidrógeno 561
24.1. Efecto Zeeman de la estructura hiperfina del estado base 1s . . . . . . . . . . . . . . . . . . . . . . 561
24.1.1. Efecto Zeeman de campo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
24.1.2. El efecto Zeeman para campo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566
24.1.3. El efecto Zeeman para campo intermedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569
24.2. Efecto Stark para el átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
24.2.1. El efecto Stark sobre el nivel n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572
24.2.2. Efecto Stark sobre el nivel n = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574
25.Moléculas diatómicas 576
25.1. Estados de momento angular cero (l = 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578
25.2. Estados de momento angular no nulo (l 6= 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579
25.3. Espectro de moléculas diatómicas heteropolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
25.3.1. Espectro puramente rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
25.3.2. Espectro vibracional-rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
25.4. Correcciones a la estructura espectral (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584
25.4.1. Corrección a las funciones de onda y los niveles de energı́a . . . . . . . . . . . . . . . . . . . 587
25.4.2. Distorsión centrı́fuga de la molécula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587
25.4.3. Acople vibracional-rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587
25.5. Espectro de moléculas diatómicas homopolares: efecto Raman . . . . . . . . . . . . . . . . . . . . . 589
26.Sistemas cuánticos de partı́culas idénticas 590
26.1. Partı́culas idénticas en mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590
26.2. Partı́culas idénticas en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591
26.3. Degeneración de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592
26.3.1. Degeneración de intercambio para un sistema de dos partı́culas de espı́n 1/2 . . . . . . . . . 593
26.3.2. Degeneración de intercambio para un sistema arbitrario . . . . . . . . . . . . . . . . . . . . 594
26.4. Operadores de permutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595
26.4.1. Permutaciones en sistemas de dos partı́culas . . . . . . . . . . . . . . . . . . . . . . . . . . . 595
26.4.2. Simetrizadores y antisimetrizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
26.4.3. Transformación de los observables por medio de las permutaciones . . . . . . . . . . . . . . 597
26.4.4. Permutación de un conjunto arbitrario de partı́culas . . . . . . . . . . . . . . . . . . . . . . 598
26.5. Postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
26.5.1. Aplicación del postulado a partı́culas compuestas . . . . . . . . . . . . . . . . . . . . . . . . 602
26.5.2. Solución de la degeneración de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
26.6. Aplicación del postulado de simetrización para N = 2 . . . . . . . . . . . . . . . . . . . . . . . . . 603
26.7. Postulado de simetrización para N arbitrario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
26.7.1. Postulado de simetrización para bosones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
26.7.2. Postulado de simetrización para fermiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605
26.8. Construcción de una base de estados fı́sicos de partı́culas idénticas . . . . . . . . . . . . . . . . . . 606
26.8.1. Propiedades de los kets de ocupación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
26.9. Consistencia del postulado de simetrización con los otros postulados . . . . . . . . . . . . . . . . . 609
26.9.1. Postulado de simetrización y el proceso de medida . . . . . . . . . . . . . . . . . . . . . . . 609
26.9.2. Postulado de simetrización y evolución temporal . . . . . . . . . . . . . . . . . . . . . . . . 610
26.10.
Consecuencias fenomenológicas del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . 611
26.10.1.Diferencias entre fermiones y bosones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611
ÍNDICE GENERAL 13
26.10.2.Estado base de un sistema de partı́culas idénticas independientes . . . . . . . . . . . . . . . 611
26.11.
Predicciones fı́sicas del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
26.11.1.Predicciones sobre partı́culas aparentemente idénticas . . . . . . . . . . . . . . . . . . . . . 615
26.11.2.Colisión elástica de dos partı́culas idénticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 616
26.12.
Situaciones en las cuales se puede ignorar el postulado de simetrización . . . . . . . . . . . . . . . 617
26.12.1.Partı́culas idénticas ubicadas en regiones espaciales distintas . . . . . . . . . . . . . . . . . . 617
26.12.2.Identificación de partı́culas por su dirección de espı́n . . . . . . . . . . . . . . . . . . . . . . 619
27.Átomos de muchos electrones y aproximación de campo central 620
27.1. Aproximación de campo central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621
27.2. Configuraciones electrónicas de los átomos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
28.El átomo de Helio 626
28.1. Configuraciones del átomo de Helio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
28.1.1. Degeneración de las configuraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
28.2. Efecto de la repulsión electrostática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629
28.2.1. Base de E (n, l; n′, l′) adaptada a las simetrı́as de W . . . . . . . . . . . . . . . . . . . . . . 629
28.2.2. Restricciones impuestas por el postulado de simetrización . . . . . . . . . . . . . . . . . . . 631
28.2.3. Términos espectrales generados por la repulsión electrostática . . . . . . . . . . . . . . . . . 633
28.3. Términos espectrales que surgen de la configuración 1s, 2s . . . . . . . . . . . . . . . . . . . . . . . 634
28.3.1. La integral de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636
28.3.2. Análisis del papel del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . 637
28.3.3. Hamiltoniano efectivo dependiente del espı́n . . . . . . . . . . . . . . . . . . . . . . . . . . . 638
28.4. Términos espectrales que surgen de otras configuraciones excitadas . . . . . . . . . . . . . . . . . . 640
28.5. Validez del tratamiento perturbativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
28.6. Estructura fina del átomo de helio y multipletes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641
29.Método de Hartree-Fock 644
29.1. Producto interno entre determinantes de Slater y un operador simétrico . . . . . . . . . . . . . . . 646
29.1.1. Ejemplo de aplicación para N = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648
29.2. Valor esperado de la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649
29.2.1. Valor esperado de H(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650
29.2.2. Valor esperado de H(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651
29.2.3. Valor esperado de H = H(0) + H(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653
29.2.4. Interpretación fı́sica de los términos directo y de intercambio . . . . . . . . . . . . . . . . . 653
29.3. Método de Hartree-Fock para una capa cerrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
29.3.1. Minimización de E [D] con ligaduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655
29.3.2. Cálculo de δF [ψ, ψ∗
] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656
29.4. Operadores de Hartree-Fock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
29.5. Interpretación de la ecuación de Hartree-Fock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
29.6. Solución por iteración de la ecuación de HF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
29.7. Determinación del valor Fı́sico de la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 660
Capı́tulo 1
Linear or vector spaces
We shall describe the most important properties of linear or vector spaces. This treatment is not rigorous at all,
and only some simple proofs are shown. Our aim limits to provide a framework for our subsequent developments.
1.1. Definition of a linear vector space
Any non-empty set of objects V = {xi} form a linear space (or a vector space) if there is a “sum” operation
defined between the elements, and a “multiplication” by scalars (i.e. the system of real or complex numbers) such
that
1. If xi ∈ V , and α is a scalar, then αxi ∈ V
2. If xi, xj ∈ V , then xi + xj ∈ V
3. xi + xj = xj + xi, ∀xi, xj ∈ V
4. xi + (xj + xk) = (xi + xj) + xk, ∀xi, xj, xk ∈ V
5. (α + β) xi = αxi + βxi ; ∀xi ∈ V
6. α (xi + xj) = αxi + αxj, ∀xi, xj ∈ V
7. (αβ) xi = α (βxi) ; ∀xi ∈ V
8. 1xi = xi ; ∀xi ∈ V
9. ∃ an element 0 ∈ V such that xi + 0 = xi, ∀xi ∈ V
10. ∀xi ∈ V , ∃ an element in V denoted by −xi such that xi + (−xi) = 0
The element 0 is usually called the null vector or the origin. The element −x is called the additive inverse of x.
We should distinguish the symbols 0 (scalar) and 0 (vector). The two operations defined here (sum and product
by scalars) are called linear operations. A linear space is real (complex) if we consider the scalars as the set of real
(complex) numbers.
Let us see some simple examples
Example 1.1 The set of all real (complex) numbers with ordinary addition and multiplication taken as the linear
operations. This is a real (complex) linear space.
14
1.2. ALGEBRAIC PROPERTIES 15
Example 1.2 The set Rn (Cn) of all n-tuples of real (complex) numbers is a real (complex) linear space under
the following linear operations
x ≡ (x1, x2, . . . , xn) ; y ≡ (y1, y2, . . . , yn)
αx ≡ (αx1, αx2, , αxn) ; x + y ≡ (x1 + y1, x2 + y2, . . . , xn + yn)
Example 1.3 The set of all bounded continuous real functions defined on a given interval [a, b] of the real line,
with the linear operations defined pointwise as
(f + g) (x) = f (x) + g (x) ; (αf) (x) = αf (x) ; x ∈ [a, b]
We can see that a linear or vector space forms an abelian group whose elements are the vectors, and with
addition as the law of combination. However, the vector space introduce an additional structure by considering
multiplication by scalars which is not a group property.
Some very important kinds of vector spaces are the ones containing certain sets of functions with some specific
properties. We can consider for example, the set of functions defined on certain interval with some condition of
continuity integrability etc. For instance, in quantum mechanics we use a vector space of functions.
1.2. Algebraic properties
Some algebraic properties arise from the axioms:
The origin or identity 0 must be unique. Assuming another identity 0′ we have that x + 0′ = 0′ + x = x for
all x ∈ V. Then 0′ = 0′ + 0 = 0. Hence 0′ = 0.
The additive inverse of any vector x is unique. Assume that x′ is another inverse of x then
x′
= x′
+ 0 = x′
+ (x+ (−x)) = x′
+ x

+ (−x) = 0 + (−x) = −x
⇒ x′
= −x
xi + xk = xj + xk ⇒ xi = xj to see it, we simply add −xk on both sides. This property is usually called the
rearrangement lemma.
α · 0 = 0 we see it from α · 0 + αx = α · (0 + x) = αx = 0 + αx and applying the rearrangement lemma.
0 · x = 0 it proceeds from 0 · x + αx = (0 + α) x = αx = 0 + αx and using the rearrangement lemma.
(−1) x = −x we see it from x+ (−1) x = 1 · x + (−1) x = (1 + (−1)) x = 0x = 0 = x+ (−x) and the
rearrangement lemma.
αx = 0 then α = 0 or x = 0; for if α 6= 0 we can multiply both sides of the equation by α−1 to give
α−1 (αx) = α−10 ⇒ α−1α

x = 0 ⇒ 1x = 0 ⇒ x = 0. If x 6= 0 we prove that α = 0 by assuming α 6= 0 and
finding a contradiction. This is inmediate from the above procedure that shows that starting with α 6= 0 we arrive
to x = 0.
It is customary to simplify the notation in x+(−y) and write it as x−y. The operation is called substraction.
1.3. Vector subspaces
Definition 1.1 A non-empty subset M of V is a vector subspace of V if M is a vector space on its own right
with respect to the linear operations defined in V .
This is equivalent to the condition that M contains all sums, negatives and scalar multiples. The other pro-
perties are derived directly from the superset V . Further, since −x = (−1) x it reduces to say that M must be
closed under addition and scalar multiplication.
When M is a proper subset of V it is called a proper subspace of V . The zero space {0} and the full space V
itself are trivial subspaces of V .
The following concept is useful to study the structure of vector subspaces of a given vector space,
16 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Definition 1.2 Let S = {x1, .., xn} be a non-empty finite subset of V , then the vector
x = α1x1 + α2x2 + . . . + αnxn (1.1)
is called a linear combination of the vectors in S.
We can redefine a vector subspace by saying that a non-empty subset M of V is a linear subspace if it is closed
under the formation of linear combinations. If S is a subset of V we can see that the set of all linear combinations
of vectors in S is a vector subspace of V , we denote this subspace as [S] and call it the vector subspace spanned by
S. It is clear that [S] is the smallest subspace of V that contains S. Similarly, for a given subspace M a non-empty
subset S of M is said to span M if [S] = M. Note that the closure of a vector space under an arbitrary linear
combination can be proved by induction from the closure property of vector spaces under linear operations. Notice
additionally, that the proof of induction only guarantees the closure under any finite sum of terms, if we have an
infinite sum of terms (e.g. a series) we cannot ensure that the result is an element of the space, this is the reason
to define linear combinations as finite sums. If we want a property of closure under some infinite sums additional
structure should be added as we shall see later.
Suppose now that M and N are subspaces of V . Consider the set M + N of all sums of the form x + y with
x ∈ M and y ∈ N. Since M and N are subspaces, this sum is the subspace spanned by the union of both subspaces
M + N = [M ∪ N]. It could happen that M + N = V in this case we say that V is the sum of M and N. In turn
it means that every vector in V is expressible as a sum of a vector in M plus a vector in N. Further, in some cases
any element z of V is expressible in a unique way as such a sum, in this case we say that V is the direct sum of
M and N and it is denoted by
V = M ⊕ N
we shall establish the conditions for a sum to become a direct sum
Theorem 1.1 Let a vector space V be the sum of two of its subspaces V = M +N. Then V = M ⊕N ⇔ M ∩N =
{0}
Proof: Assume first that V = M ⊕ N, we shall suppose that ∃ z 6= 0 with z ∈ M ∩ N, and deduce a
contradiction from it. We can express z in two different ways z = z + 0 with z ∈ M and 0 ∈ N or z = 0 + z with
0 ∈ M and z ∈ N. This contradicts the definition of a direct sum.
Now assume M ∩ N = {0}, by hypothesis V = M + N so that any z ∈ V can be expressed by z = x1 + y1
with x1 ∈ M and y1 ∈ N. Suppose that there is another decomposition z = x2 + y2 with x2 ∈ M and y2 ∈ N.
Hence x1 + y1 = x2 + y2 ⇒ x1 − x2 = y1 − y2; but x1 − x2 ∈ M and y1 − y2 ∈ N. Since they are equal, then both
belong to the intersection so x1 − x2 = y1 − y2 = 0 then x1 = x2 and y1 = y2 showing that the decomposition
must be unique. QED.
When two vector subspaces of a given space have only the zero vector in common, it is customary to call them
disjoint subspaces. It is understood that it does not correspond to disjointness in the set-theoretical sense, after all
two subspaces of a given space cannot be disjoint as sets, since any subspace must contain 0. Thus no confusion
arises from this practice.
The concept of direct sum can be generalized when more subspaces are involved. We say that V is the direct
sum of a collection of subspaces {M1, .., Mn} and denote it as
V = M1 ⊕ M2 ⊕ . . . ⊕ Mn
when each z ∈ V can be expressed uniquely in the form
z = x1 + x2 + . . . + xn ; xi ∈ Mi
In this case if V = M1 +..+Mn, this sum becomes a direct sum if and only if each Mi is disjoint from the subspace
spanned by the others. To see it, it is enough to realize that
V = M1 + M2 + .. + Mn = M1 + [M2 + .. + Mn] = M1 + [∪n
i=2Mi]
1.4. DIMENSION AND BASES IN VECTOR SPACES 17
then V = M1 ⊕ [M2 + .. + Mn] if and only if M1 ∩ [∪n
i=2Mi] = {0}, proceeding similarly for the other M′
is we
arrive at the condition above. Note that this condition is stronger than the condition that any given Mi is disjoint
from each of the others.
The previous facts can be illustrated by a simple example. The most general non-zero proper subspaces of R3
are lines or planes that passes through the origin. Thus let us define
M1 = {(x1, 0, 0)} , M2 = {(0, x2, 0)} , M3 = {(0, 0, x3)}
M4 = {(0, x2, x3)} , M5 = {(x1, 0, x3)} , M6 = {(x1, x2, 0)}
M1, M2, M3 are the coordinate axes of R3 and M4, M5, M6 are its coordinate planes. R3 can be expressed by direct
sums of these spaces in several ways
R3
= M1 ⊕ M2 ⊕ M3 = M1 ⊕ M4 = M2 ⊕ M5 = M3 ⊕ M6
for the case of R3 = M1⊕M2⊕M3 we see that the subspace spanned by M2 and M3 i.e. M2+M3 = [M2 ∪ M3] = M4
is disjoint from M1. Similarly M2 ∩[M1 ∪ M3] = {0} = M3 ∩[M1 ∪ M2]. It is because of this, that we have a direct
sum.
Now let us take M3, M6 and M′ defined as a line on the plane M4 that passes through the origin making an
angle θ with the axis x3 such that 0  θ  π/2, since R3 = M3 + M6 it is clear that
R3
= M3 + M6 + M′
; M3 ∩ M6 = M3 ∩ M′
= M6 ∩ M′
= {0} (1.2)
however this is not a direct sum because M3 + M6 = R3 so that M′ ∩ (M3 + M6) 6= {0}. Despite each subspace
is disjoint from each other, there is at least one subspace that is not disjoint from the subspace spanned by the
others. Let us show that there are many decompositions for a given vector z ∈ R3 when we use the sum in (1.2).
Since R3 = M3 +M6 a possible decomposition is z = x+y +0 with x ∈ M3, y ∈ M6, 0 ∈ M′. Now let us take an
arbitrary non-zero element w of M′; clearly M3 +M6 = R3 contains M′ so that w = x′ +y′with x′ ∈ M3, y′ ∈ M6.
Now we write z = x + y = (x − x′) + (y − y′) + x′ + y′ then z = (x − x′) + (y − y′) + w. We see that (x − x′) is
in M3 and (y − y′) is in M6. Now, since w ∈ M′ and w 6= 0 this is clearly a different decomposition with respect
to the original one. An infinite number of different decompositions are possible since w is arbitrary.
Finally, it can be proved that for any given subspace M in V it is always possible to find another subspace N in
V such that V = M ⊕N. Nevertheless, for a given M the subspace N is not neccesarily unique. A simple example
is the following, in R2 any line crossing the origin is a subspace M and we can define N as any line crossing the
origin as long as it is not collinear with M; for any N accomplishing this condition we have V = M ⊕ N.
1.4. Dimension and bases in vector spaces
Definition 1.3 Let V be a vector space and S = {x1, .., xn} a finite non-empty subset of V . S is defined as
linearly dependent if there is a set of scalars {α1, .., αn} not all of them zero such that
α1x1 + α2x2 + .. + αnxn = 0 (1.3)
if S is not linearly dependent we say that it is linearly independent, this means that in Eq. (1.3) all coefficients αi
must be zero. Thus linear independence of S means that the only solution for Eq. (1.3) is the trivial one. When
non-trivial solutions exists the set is linearly dependent.
¿What is the utility of the concept of linear independence of a given set S? to see it, let us examine a given
vector x in [S], each of these vectors arise from linear combinations of vectors in S
x = α1x1 + α2x2 + .. + αnxn ; xi ∈ S (1.4)
18 CAPÍTULO 1. LINEAR OR VECTOR SPACES
we shall see that for the ordered set S = {x1, .., xn} the corresponding ordered set {α1, .., αn} associated with x
by Eq. (1.4) is unique. Suppose there is another decomposition of x as a linear combination of elements of S
x = β1x1 + β2x2 + .. + βnxn ; xi ∈ S (1.5)
substracting (1.4) and (1.5) we have
0 = (α1 − β1) x1 + (α2 − β2) x2 + .. + (αn − βn) xn
but linear independence require that only the trivial solution exists, thus αi = βi and the ordered set of coefficients
is unique. This is very important for the theory of representations of vector spaces. The discussion above permits
to define linearly independence for an arbitrary (not necessarily finite) non-empty set S
Definition 1.4 An arbitrary non-empty subset S ⊆ V is linearly independent if every finite non-empty subset of
S is linearly independent in the sense previously established.
As before, an arbitrary non-empty set S is linearly independent if and only if any vector x ∈ [S] can be written
in a unique way as a linear combination of vectors in S.
The most important linearly independent sets are those that span the whole space i.e. [S] = V this linearly
independent sets are called bases. It can be checked that S is a basis if and only if it is a maximal linearly
independent set, in the sense that any proper superset of S must be linearly dependent. We shall establish
without proof a very important theorem concerning bases of vector spaces
Theorem 1.2 If S is a linearly independent set of vectors in a vector space V , there exists a basis B in V such
that S ⊆ B.
In words, given a linearly independent set, it is always possible to add some elements to S for it to become
a basis. A linearly independent set is non-empty by definition and cannot contain the null vector. Hence, we see
that if V = {0} it does not contain any basis, but if V 6= {0} and we can take a non-zero element x of V , the set
{x} is linearly independent and the previous theorem guarantees that V has a basis that contains {x}, it means
that
Theorem 1.3 Every non-zero vector space has a basis
Now, since any set consisting of a single non-zero vector can be enlarged to become a basis it is clear that any
non-zero vector space contains an infinite number of bases. It worths looking for general features shared by all
bases of a given linear space. Tne first theorem in such a direction is the following
Theorem 1.4 Let S = {x1, x2, .., xn} be a finite, odered, non-empty subset of the linear space V . If n = 1 then
S is linearly dependent⇔ x1 = 0. If n  1 and x1 6= 0 then S is linearly dependent if and only if some one of the
vectors x2, ..., xn is a linear combination of the vectors in the ordered set S that precede it.
Proof: The first assertion is trivial. Then we settle n  1 and x1 6= 0. Assuming that one of the vectors xi in
the set x2, ..., xn is a linear combination of the preceding ones we have
xi = α1x1 + ... + αi−1xi−1 ⇒ α1x1 + ... + αi−1xi−1 − 1 · xi = 0
since the coefficient of xi is 1, this is a non-trivial linear combination of elements of S that equals zero. Thus S is
linearly dependent. We now assume that S is linearly dependent hence the equation
α1x1 + ... + αnxn = 0
1.4. DIMENSION AND BASES IN VECTOR SPACES 19
has a solution with at least one non-zero coefficcient. Let us define αi as the last non zero coefficient, since x1 6= 0
then i  1 then we have
α1x1 + ... + αixi + 0 · xi+1 + ... + 0 · xn = 0 ⇒ xi =

−
α1
αi

x1 + ... +

−
αi−1
αi

xi−1
and xi is written as a linear combination of the vectors that precede it in the ordered set S. QED
The next theorem provides an important structural feature of the set of bases in certain linear spaces
Theorem 1.5 If a given non-zero linear space V has a finite basis B1 = {e1, ..., en} with n elements, then any
other basis B2 = {fi} of V must be finite and also with n elements.
The following theorem (that we give without proof) gives a complete structure to this part of the theory of
vector spaces
Theorem 1.6 Let V be a non-zero vector space. If B1 = {ei} and B2 = {uj} are two bases of the vector space,
then B1 and B2 are sets with the same cardinality.
These theorem is valid even for sets with infinite cardinality. This result says that the cardinality of a basis is
a universal attribute of the vector space since it does not depend on the particular basis used. Hence the following
are natural definitions
Definition 1.5 The dimension of a non-zero vector space is the cadinality of any of its basis. If V = {0} the
dimension is defined to be zero.
Definition 1.6 A vector space is finite-dimensional if its dimension is a non negative integer. Otherwise, it is
infinite-dimensional.
As any abstract algebraic system, vector spaces requires a theory of representations in which the most abstract
set is replaced by another set with more tangible objects. However, for the representation to preserve the abstract
properties of the vector space, set equivalence and linear operations must be preserved. This induces the following
definition
Definition 1.7 Let V and V ′ two vector spaces with the same system of scalars. An isomorphism of V onto V ′
is a one-to-one mapping f of V onto V ′ such that f (x + y) = f (x) + f (y) and f (αx) = αf (x)
Definition 1.8 Two vector spaces with the same system of scalars are called isomorphic if there exists an iso-
morphism of one onto the other.
To say that two vector spaces are isomorphic means that they are abstractly identical with respect to their
structure as vector spaces.
Now let V be a non zero finite dimensional space. If n is its dimension, there exists a basis B = {e1, .., en}
whose elements are written in a definite order. Each vector x in V can be written uniquely in the form
x = α1e1 + .. + αnen
so the n−tuple (α1, .., αn) is uniquely determined by x. If we define a mapping f by f (x) = (α1, .., αn) we see
that this is an isomorphism of V onto Rn or Cn depending on the system of scalars defined for V .
Theorem 1.7 Any real (complex) non-zero finite dimensional vector space of dimension n is isomorphic to Rn
(Cn).
20 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Indeed, this theorem can be extended to vector spaces of arbitrary dimensions, we shall not discuss this topic
here. By now, it suffices to realize that the isomorphism establishes here is not unique for it depends on the basis
chosen and even on the order of vectors in a given basis. It can be shown also that two vector spaces V and V ′
are isomorphic if and only if they have the same scalars and the same dimension.
From the results above, we could then be tempted to say that the abstract concept of vector space is no
useful anymore. However, this is not true because on one hand the isomorphism depends on the basis chosen and
most results are desirable to be written in a basis independent way. But even more important, almost all vector
spaces studied in Mathematics and Physics posses some additional structure (topological or algebraic) that are
not neccesarily preserve by the previous isomorphisms.
1.5. Mappings and transformations in vector spaces
For two vector spaces V and V ′ with the same system of scalars we can define a mapping T of V into V ′ that
preserves linear properties
T (x + y) = T (x) + T (y) ; T (αx) = αT (x)
T is called a linear transformation. We can say that linear transformations are isomorphisms of V into V ′ since
linear operations are preserved. T also preserves the origin and negatives
T (0) = T (0 · 0) = 0 · T (0) = 0 ; T (−x) = T ((−1) x) = (−1) T (x) = −T (x)
we shall see later that the states of our physical systems are vectors of a given vector space. Hence, the transfor-
mations of these vectors are also important in Physics because they will represent transformations in the states
of our system. We shall see later that the set of all linear transformations are in turn vector spaces with their own
internal organization.
Let us now define some basic operations with linear transformations, a natural definition of the sum of two
linear transformations is of the form
(T + U) (x) ≡ T (x) + U (x) (1.6)
and a natural definition of multiplication by scalars is
(αT) (x) ≡ αT (x) (1.7)
finally the zero and negative linear transformations are defined as
0 (x) ≡ 0 ; (−T) (x) ≡ −T (x) (1.8)
with these definitions it is inmediate to establish the following
Theorem 1.8 Let V and V ′ be two vector spaces with the same system of scalars. The set of all linear transfor-
mations of V into V ′ with the linear operations defined by Eqs. (1.6, 1.7, 1.8) is itself a vector space.
The most interesting cases are the linear transformations of V into itself and the linear transformations of V
into the vector space of scalars (real or complex). We shall study now the first case.
1.6. Linear transformations of a vector space into itself
In this case we usually speak of linear transformations on V . The first inmediate consequence is the capability
of defining the composition of operators (or product of operators)
(TU) (x) ≡ T (U (x)) (1.9)
1.6. LINEAR TRANSFORMATIONS OF A VECTOR SPACE INTO ITSELF 21
associativity and distributivity properties can easily be derived
T (UV ) = (TU) V ; T (U + V ) = TU + TV
(T + U) V = TV + UV ; α (TU) = (αT) U = T (αU)
we prove for instance
[(T + U) V ] (x) = (T + U) (V (x)) = T (V (x)) + U (V (x))
= (TV ) (x) + (UV ) (x) = (TV + UV ) (x)
commutativity does not hold in general. It is also possible for the product of two non-zero linear transformations
to be zero. An example of non commutativity is the following: we define on the space P of polynomials p (x) the
linear operators M and D
M (p) ≡ xp ; D (p) =
dp
dx
⇒ (MD) (p) = M (D (p)) = xD (p) = x
dp
dx
(DM) (p) = D (M (p)) = D (xp) = x
dp
dx
+ p
and MD 6= DM. Suppose now the linear transformations on R2 given by
Ta ((x1, x2)) = (x1, 0) ; Tb ((x1, x2)) = (0, x2) ⇒ TaTb = TbTa = 0
thus Ta 6= 0 and Tb 6= 0 but TaTb = TbTa = 0.
Another natural definition is the identity operator I
I (x) ≡ x
we see that I 6= 0 ⇔ V 6= {0}. Further
IT = TI = T
for every linear operator T on V . For any scalar α the operator αI is called scalar multiplication since
(αI) (x) = αI (x) = αx
it is well known that for a mapping of V into V ′ to admit an inverse of V ′ into V requires to be one-to-one and
onto. In this context this induces the definition
Definition 1.9 A linear transformation T on V is non-singular if it is one-to-one and onto, and singular other-
wise.
When T is non-singular its inverse can be defined so that
TT−1
= T−1
T = I
it can be shown that when T is non-singular T−1 is also a non-singular linear transformation.
For future purposes the following theorem is highly relevant
Theorem 1.9 If T is a linear transformation on V , then T is non-singular⇔ T (B) is a basis for V whenever B
is.
22 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.6.1. Projection operators
We shall discuss some very important types of linear transformations. Let V be the direct sum of two subspaces
V = M ⊕ N it means that any vector z in V can be written in a unique way as z = x + y with x ∈ M and y ∈ N.
Since x is uniquely determined by z this decomposition induces a natural mapping of V onto M in the form
P (z) = x
it is easy to show that this transformation is linear and is called the projection on M along N. The most important
property of these transformations is that they are idempotent i.e. P2 = P we can see it taking into account that
the unique decomposition of x is x = x + 0 so that
P2
(z) = P (P (z)) = P (x) = x = P (z)
The opposite is also true i.e. a given linear idempotent linear transformation induces a decomposition of the space
V in a direct sum of two subspaces
Theorem 1.10 If P is a linear transformation on a vector space V , P is idempotent⇔there exists subspaces M
and N in V such that V = M ⊕ N and P is the projection on M along N.
Proof: We already showed that decomposition in a direct sum induces a projection, to prove the opposite let
define M and N in the form
M ≡ {P (z) : z ∈ V } ; N = {z : P (z) = 0}
M and N are vector subspaces and correspond to the range and the null space (or kernel) of the transformation
P respectively. We show first that M + N = V , this follows from the identity
z = P (z) + (I − P) (z) (1.10)
P (z) belongs to M by definition, now
P ((I − P) (z)) = (P (I − P)) (z) = P − P2

(z) = (P − P) (z) = 0 (z) = 0
thus (I − P) (z) belongs to the null space N so M + N = V . To prove that this is a direct sum we must show that
M and N are disjoint (theorem 1.1). For this, assume that we have a given element P (z) in M that is also in N
then
P (P (z)) = 0 ⇒ P2
(z) = P (z) = 0
thus the common element P (z) must be the zero element. Hence, M and N are disjoint and V = M ⊕N. Further,
from (1.10) P is the projection on M along N.
Of course in z = x + y with x ∈ M, y ∈ N we can define a projection P′ (z) = y on N along M. In this case
V = M ⊕ N = N ⊕ M but now M is the null space and N is the range. It is easy to see that P′ = I − P.
On the other hand, we have seen that for a given subspace M in V we can always find another subspace N
such that V = M ⊕ N so for a given M we can find a projector with range M and null space N. However, N is
not unique so that different projections can be defined on M.
Finally, it is easy to see that the range of a projector P corresponds to the set of points fixed under P i.e.
M = {P (z) : z ∈ V } = {z : P (z) = z}.
1.7. Normed vector spaces
Inspired in the vectors of Rn in which we define their lengths in a natural way, we can define lengths of vectors
in abstract vector spaces by assuming an additional structure
1.7. NORMED VECTOR SPACES 23
Definition 1.10 A normed vector space N is a vector space in which to each vector x there corresponds a real
number denoted by kxk with the following properties: (1) kxk ≥ 0 and kxk = 0 ⇔ x = 0.(2) kx + yk ≤ kxk + kyk
(3) kαxk = |α| kxk
As well as allowing to define a length for vectors, the norm permits to define a distance between two vectors
x and y in the following way
d (x, y) ≡ kx − yk
it is easy to verify that this definition accomplishes the properties of a metric
d (x, y) ≥ 0 and d (x, y) = 0 ⇔ x = y
d (x, y) = d (y, x) ; d (x, z) ≤ d (x, y) + d (y, z)
in turn, the introduction of a metric permits to define two crucial concepts: (a) convergence of sequences, (b)
continuity of functions of N into itself (or into any metric space).
We shall examine both concepts briefly
1.7.1. Convergent sequences, cauchy sequences and completeness
If X is a metric space with metric d a given sequence in X
{xn} = {x1, .., xn, ...}
is convergent if there exists a point x in X such that for each ε  0, there exists a positive integer n0 such that
d (xn, x)  ε for all n ≥ n0. x is called the limit of the sequence. A very important fact in metric spaces is that
any convergent sequence has a unique limit.
Further, assume that x is the limit of a convergent sequence, it is clear that for each ε  0 there exists n0 such
that m, n ≥ n0 ⇒ d (x, xm)  ε/2 and d (x, xn)  ε/2 using the properties of the metric we have
m, n ≥ n0 ⇒ d (xm, xn) ≤ d (xm, x) + d (x, xn) 
ε
2
+
ε
2
= ε
a sequence with this property is called a cauchy sequence. Thus, any convergent sequence is a cauchy sequence.
The opposite is not necessarily true. As an example let X be the interval (0, 1] the sequence xn = 1/n is a cauchy
sequence but is not convergent since the point 0 (which it wants to converge to) is not in X. Then, convergence
depends not only on the sequence itself, but also on the space in which it lies. Some authors call cauchy sequences
“intrinsically convergent” sequences.
A complete metric space is a metric space in which any cauchy sequence is convergent. The space (0, 1] is not
complete but it can be made complete by adding the point 0 to form [0, 1]. In fact, any non complete metric space
can be completed by adjoining some appropiate points. It is a fundamental fact that the real line, the complex
plane and Rn, Cn are complete metric spaces.
We define an open sphere of radius r centered at x0 as the set of points such that
Sr (x0) = {x ∈ X : d (x, x0)  r}
and an open set is a subset A of the metric space such that for any x ∈ A there exists an open sphere Sr (x) such
that Sr (x) ⊆ A.
For a given subset A of X a point x in X is a limit point of A if each open sphere centered on x contains at
least one point of A different from x.
A subset A is a closed set if it contains all its limit points. There is an important theorem concerning closed
metric subspaces of a complete metric space
Theorem 1.11 Let X be a complete metric space and Y a metric subspace of X. Then Y is complete⇔it is
closed.
24 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.7.2. The importance of completeness in quantum mechanics
In quantum mechanics we work in an infinite dimensional vector space of functions in which we shall frequently
encounter series of the form
∞
X
n=1
cnψn
with ψn being functions in our space that describe physical states and cn are some appropiate coefficients. For this
series to have any physical sense, it must be convergent. To analyze convergence we should construct the sequence
of partial sums
( 1
X
n=1
cnψn,
2
X
n=1
cnψn,
3
X
n=1
cnψn, ...
)
if this series is “intrisically” convergent the corresponding sequence of partial sums should be a cauchy sequence.
Any series that defines a cauchy sequence has a bounded norm





∞
X
n=1
cnψn





 ∞
it would then be desirable that an intrinsically convergent series given by a superposition of physical states ψn
be another physical state ψ. In other words, the limit of the partial sums should be within the vector space that
describe our physical states. To ensure this property we should demand completeness of the vector space that
describe the physical states of the system.
On the other hand, it would be usual to work with subspaces of the general physical space. If we want to
guarantee for a series in a given subspace to be also convergent, we should require for the subspace to be complete
by itself, and according to theorem 1.11 it is equivalent to require the subspace to be closed with respect to the
total space. Therefore, closed subspaces of the general space of states would be particularly important in quantum
mechanics.
1.7.3. The concept of continuity and its importance in Physics
The concept of continuity arises naturally for mappings of a metric space into another metric space. Let f be
a mapping of (X, d1) into (Y, d2) we say that f is continuous at x0 ∈ X if for each ε  0 there exists δ  0 such
that d1 (x, x0)  δ ⇒ d2 (f (x) , f (x0))  ε. This mapping is said to be continuous if it is continuous for each point
in its domain.
Continuity is also an essential property in Physics since for most of physical observables or states we require
some kind of “smoothness” or “well behavior”. Continuity is perhaps the weakest condition of well behavior usually
required in Physics.
We have previously defined isomorphisms as mappings that preserve all structure concerning a general vector
space. It is then natural to characterize mappings that preserve the structure of a set as a metric space
Definition 1.11 If X, Y are two metric spaces with metrics d1 and d2 a mapping f of X into Y is an isometry
if d1 (x, x′) = d2 (f (x) , f (x′)) ∀x, x′ ∈ X. If there exists an isometry of X onto Y , we say that X is isometric to
Y .
It is clear that an isometry is necessarily one-to-one. If X is isometric to Y then the points of these spaces
can be put in a one to one correspondence in such a way that the distance between pairs of corresponding points
are the same. In that sense, isometric spaces are abstractly identical as metric spaces. For instance, if we endow
a vector space V with a metric then another metric vector space V ′ will be identical to V as metric and vector
space if and only if there is an isometric isomorphism between them. Isometry preserves metric (distances) while
isomorphism preserve vector structure (linear operations). Of course a norm-preserving mapping is an isometry
for the metric induced by such a norm. Thus for our purposes norm preserving mappings will be isometries.
1.8. BANACH SPACES 25
1.8. Banach Spaces
From our experience in classical mechanics we have seen that the concept of a vector space is useful especially
when we associate a length to the vectors, this induces the concept of normed vector spaces, the norm in turn
induces a metric i.e. a natural concept of the distance between vectors. Metric structure in turn lead us to the
concepts of convergent sequences and continuity of functions. In particular, the previous discussion concerning
completeness incline us in favor of spaces that are complete. Then we are directly led to normed and complete
linear spaces
Definition 1.12 A banach space is a normed and complete vector space
As in any vector space, linear transformations are crucial in the characterization of Banach spaces. Since a
notion of continuity is present in these spaces and continuity is associated with well behavior in Physics, it is
natural to concentrate our attention in continuous linear transformations of a banach space B into itself or into
the set of scalars. Transformations of B into itself will be useful when we want to study posible modifications of
the vectors (for instance the time evolution of the vectors describing the state of the system). On the other hand,
transformations of B into the scalars will be useful when we are interested in connecting the state of a system
(represented by a vector) with a measurement (which is a number).
Before considering each specific type of continuous linear transformation, we should clarify what the meaning
of continuity of a linear transformation is. Since continuity depends on the metric induced on the space, we should
define for a given space of linear transformations on a Banach space B, a given metric. We shall do it by first
defining a norm, specifically we shall define the following norm
kTk = sup {|T (x)| : kxk ≤ 1} (1.11)
We shall refer to the metric induce by this norm when we talk about the continuity of any linear transformation
of a Banach space into itself or into the scalars. It can be shown that for this norm continuity is equivalent to
boundedness.
1.8.1. Continuous linear transformations of a Banach space into scalars
Let us consider first the continuous linear transformations of B into the scalars. This induces the following
Definition 1.13 A real (or complex) functional is a continuous linear transformation of a real (or complex)
normed linear space into R (or C).
Definition 1.14 The set of all functionals on a normed linear space N is called the conjugate space of N and is
denoted by N∗.
For the case of general normed spaces (and even for Banach spaces), the structure of their conjugate spaces
is in general very intrincate. However we shall see that conjugate spaces are much simpler when an additional
structure (inner product) is added to Banach spaces.
1.8.2. Continuous linear transformations of a Banach space into itself
Let us discuss now the continuous linear transformations of Banach spaces into themselves.
Definition 1.15 An operator is a continuous linear transformation of a normed space into itself.
A particularly useful result in quantum mechanics is the following
Theorem 1.12 If a one-to-one linear transformation T of a Banach space onto itself is continuous, then its
inverse is automatically continuous
26 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Though we do not provide a proof, it is important to note that this result requires the explicit use of com-
pleteness (it is not valid for a general normed space). We see then that completeness gives us another desirable
property in Physics: if a given transformation is continuous and its inverse exist, this inverse transformation is
also continuous.
Let us now turn to projectors on Banach spaces. For general vector spaces projectors are defined as idempotent
linear transformations. For Banach spaces we will required an additional structure which is continuity
Definition 1.16 A projector in a Banach space B, is defined as an idempotent operator on B
The consequences of the additional structure of continuity for projectors in Banach spaces are of particular
interest in quantum mechanics
Theorem 1.13 If P is a projection on a Banach space B, and if M and N are its range and null space. Then
M and N are closed subspaces of B such that B = M ⊕ N
The reciprocal is also true
Theorem 1.14 Let B be a banach space and let M and N be closed subspaces of B such that B = M ⊕ N. If
z = x + y is the unique representation of a vector z in B with x in M and y in N. Then the mapping P defined
by P (z) = x is a projection on B whose range and null space are M and N respectively.
These properties are interesting in the sense that the subspaces generated by projectors are closed subspaces
of a complete space, and then they are complete by themselves. We have already said that dealing with complete
subspaces is particularly important in quantum mechanics.
There is an important limitation with Banach spaces. If a closed subspace M is given, though we can always
find many subspaces N such that B = M ⊕ N there is not guarantee that any of them be closed. So there is not
guarantee that M alone generates a projection in our present sense. The solution of this inconvenience is another
motivation to endow B with an additional structure (inner product).
Finally, the definition of the conjugate N∗ of a normed linear space N, induces to associate to each operator
in the normed linear space N and operator on N∗ in the following way. Let us form a complex number c0 with
three objects, an operator T on N, a functional f on N and an element x ∈ N, we take this procedure: we map
x in T (x) and then map this new element of N into the scalar c0 through the functional f
x → T (x) → f (T (x)) = c0
Now we get the same number with other set of three objects an operator T∗ on N∗, a functional f on N (the
same functional of the previous procedure) and an element x ∈ N (the same element stated before), the steps are
now the following, we start with the functional f in N∗ and map it into another functional through T∗, then we
apply this new functional to the element x and produce the number c0. Schematically it is
f → T∗
(f) → [T∗
(f)] (x) = c0
with this we are defining an apropiate mapping f′ such that f′ (x) gives our number. In turn it induces an operator
on N∗ that maps f in f′ and this is the newly defined operator T∗ on N∗. In summary this definition reads
[T∗
(f)] (x) ≡ f (T (x)) (1.12)
where f is a functional on N i.e. an element in N∗, T an operator on N and x an element of N. If for a given
T we have that Eq. (1.12) holds for f and x arbitrary, we have induced a new operator T∗ on N∗ from T. It can
be shown that T∗ is also linear and continuous i.e. an operator. When inner product is added to the structure,
this operator becomes much simpler.
1.9. HILBERT SPACES 27
By using the norm (1.11) applied to operators on B∗ we have
kT∗
k = sup {kT∗
(f)k : kfk ≤ 1}
it can be proved that
kT∗
k = kTk (1.13)
such that the mapping T → T∗ is norm preserving and therefore an isometry, we can also see that
(αT1 + βT2)∗
= αT∗
1 + βT∗
2 ; I∗
= I ; (T1T2)∗
= T∗
2 T∗
1 (1.14)
since linear operations are preserved the mapping T → T∗ is an isometric isomorphism. However, the product
is reversed under the mappping, this shows that the spaces ß(T) and ß(T∗) are equivalent as metric and vector
spaces but they are not equivalent as algebras (the spaces are not isomorphic as algebras).
1.9. Hilbert spaces
In R3 it is customary to define a set of three ortonormal vectors ui such that any vector in R3 can be written
as x = αiui sum over repeated indices. The dot product is defined such that
x · y ≡ kxk kyk cos θ (1.15)
the dot product is a good mathematical tool for many purposes in solid analytic geometry. If we accept the
statement that the zero vector is orthogonal to every vector we can say that the dot product is null if and only if
both vectors are orthogonal. Let {vi} be a given basis (not necessarily orthonormal) of R3; any two vectors in R3
are expressed in the form
x = αivi ; y = βjvj (1.16)
the dot product and the norm of these two vectors can be written
x · y = (αivi) · (βjvj) = αiβjvi · vj ≡ αiβjmij
x · x = kxk2
= (αivi) · (αjvj) = αiαjvi · vj ≡ αiαjmij
These expressions can be in general complicated. Notice that these and other algebraic operations with dot
products become much easier when an orthonormal basis is used since in this case we have mij = δij so that
x · y = αiβi and x · x = αiαi. These facts put orthonormal basis in a privileged position among other bases.
Further, an attempt of extension of these ideas to C3 permits to define the inner product in this space in the
following way, given the vectors (1.16) where α and β are complex we define
(x, y) = (α∗
i vi) · (βjvj) = α∗
i βjmij
the conjugate on α appears to obtain the norm of a complex vectors with the inner product of such a vector with
itself, as can be seen by using an orthonormal basis in which mij = δij
(x, x) = kxk2
= α∗
i αi = |αi| |αi|
the simplification above comes from the extension of the concept of orthogonality to complex vectors, they are
orthogonal if and only if (x, y) = 0.
In both the real and complex cases, the concept of orthogonality was very important not only because of the
geometry but also because of the algebra. We observe for instance, that no angle like the one in (1.15) can be
defined in the complex case, but the algebra of inner products continues being simple and useful. On the same
ground, we were able to talk about orthogonality in the complex case via the inner product and exploit the
advantages of orthonormal sets, although two vectors of the complex plane are not “perpendicular”.
28 CAPÍTULO 1. LINEAR OR VECTOR SPACES
In the same way, in abstract vector spaces is not so clear how to use the concept of orthogonality in a
geometrical way, but from the discussion above it is clear that the extension of the concept would represent great
simplifications from the algebraic sense. Notwithstanding, we shall see that the extension of the concept of inner
product will also provide some geometrical interpretations.
As always in mathematics, a natural extension should come from the extrapolation of the essential properties
of the concept in the restricted way, the inner product in the complex and real spaces has the following properties
(x, αy + βz) = α (x, y) + β (x, z) ; (x, y) = (y, x)∗
; (x, x) = kxk2
we are led to the following
Definition 1.17 A Hilbert space is a real or complex Banach space whose norm arises from an inner product,
which in turn is defined as a complex function (x, y) of the vectors x and y with the following properties
(x, αy + βz) = α (x, y) + β (x, z)
(x, y) = (y, x)∗
(x, x) = kxk2
Definition 1.18 Two vectors x, y in a Hilbert space are said to be orthogonal if (x, y) = 0, we denote it as x ⊥ y.
A vector is said to be normal or unitary if (x, x) = 1.
From the definition the following properties hold
|(x, y)| ≤ kxk kyk (1.17)
kx + yk2
+ kx − yk2
= 2 kxk2
+ 2 kyk2
(1.18)
4 (x, y) = kx + yk2
− kx − yk2
+ i kx + iyk2
− i kx − iyk2
(1.19)
x ⊥ y ⇒ kx + yk2
= kx − yk2
= kxk2
+ kyk2
(1.20)
Eq. (1.17) is known as the Schwarz inequality. Eq. (1.18) is known as the paralelogram law because in plane
geometry it reduces to the theorem which says that the sum of the squares of the sides of a paralelogram equals
the sum of the squares of its diagonals. As well as its geometrical interpretation, this law says that only certain
Banach spaces can be converted into Hilbert spaces, only those normed complete spaces in which the norm obeys
the paralelogram law can become a Hilbert space. Further, if for a given norm, the paralelogram law is satisfied,
then Eq. (1.19), gives us the recipe to define an inner product from such a norm. Finally, for reasons easy to
visualize Eq. (1.20) is called the pithagorean theorem.
As a matter of illustration let us prove the paralelogram law Eq. (1.18)
kx + yk2
+ kx − yk2
= (x + y, x + y) + (x − y, x − y) = (x, x + y) + (y, x + y) + (x, x − y) − (y, x − y)
= (x, x) + (x, y) + (y, x) + (y, y) + (x, x) − (x, y) − (y, x) + (y, y)
= (x, x) + (y, y) + (x, x) + (y, y) = 2 kxk2
+ 2 kyk2
A vector x is said to be orthogonal to a non empty set S, if x ⊥ y for all y ∈ S. The orthogonal complement
of S is the set of all vectors orthogonal to S, it is denoted as S⊥. Two non empty sets M and N are orthogonal
if x ⊥ y for all x ∈ M and for all y ∈ N; this is denoted as M ⊥ N. If M is a closed vector subspace of H then
M⊥ is also closed. The following theorems are important for physical purposes
Theorem 1.15 If M and N are closed vector subspaces of a Hilbert space H such that M ⊥ N, then the linear
subspace M + N is also closed
Theorem 1.16 If M is a closed linear subspace of a Hilbert space H, then H = M ⊕ M⊥
1.9. HILBERT SPACES 29
Thus we see that the expansion of the union of closed subspaces preserves the closure property and so the
completeness property too. In addition, theorem 1.16 says that given a closed subspace of H we can always find
a closed subspace to generate H by direct sum. Besides, the closed space that makes the work is the orthogonal
complement. It means that for any given closed subspace M we can define a projection with range M and null
space M⊥. Contrast this with the problem arising in Banach spaces in which we cannot guarantee the closure of
the complementary space.
1.9.1. Orthonormal sets
An orthonormal set {ei} in H is a non empty subset of H such that if i 6= j then ei ⊥ ej and keik = 1 for
all i. this set could be of any cardinality (non necessarily countable). The zero Hilbert space has no orthonormal
sets. The following theorems are of great practical interest
Theorem 1.17 Let {e1, .., en} be a finite orthonormal set in H. If x is a vector in H we have
n
X
i=1
|(ei, x)|2
≤ kxk2
(1.21)
x −
n
X
i=1
(ei, x) ei ⊥ ej ; j = 1, .., n (1.22)
We can give the following interpretation of this theorem: Eq. (1.21) says that the sum of the components of a
vector in the various orthogonal directions defined by the ortonormal set, cannot exceed the length of the vector.
Similarly, Eq. (1.22) says that if we substract from a vector its components in several perpendicular directions the
resultant has no components left in those directions.
The following theorem shows that the coefficients obtained for a given vector from an orthonormal set are not
arbitrary
Theorem 1.18 If {ei} is an orthonormal set in a Hilbert space H, and if x is any vector in H, the set S =
n
ei : |(ei, x)|2
6= 0
o
is either empty or countable.
These results permit to extend theorem 1.17 for arbitrary orthonormal sets
Theorem 1.19 Let {ei} be an arbitrary orthonormal set in H. If x is a vector in H we have
X
|(ei, x)|2
≤ kxk2
(1.23)
x −
X
(ei, x) ei ⊥ ej ; j = 1, .., n (1.24)
where the symbol of sum means the following, defining the set S =
n
ei : |(ei, x)|2
6= 0
o
, we define the sum to be
zero (number or vector) when S is empty. If S is finite, the definitions in (1.24, 1.23) coincide with the ones in
(1.21, 1.22), if S is countably infinite, the sums become series
P∞
n=1 for a given order of the set S = {e1, .., ei, ..},
in this case the limit of the series is independent of the order chosen for S.
Definition 1.19 An orthonormal set in H is said to be complete if it is maximal, that is, if it is impossible to
add an element e to the set while preserving the orthonormality in the new set.
Theorem 1.20 Every orthonormal set in a Hilbert space is contained in a complete orthonormal set
Theorem 1.21 Every non-zero Hilbert space contains a complete orthonormal set
30 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Theorem 1.22 Every orthonormal set is linearly independent
Theorem 1.23 Let H be a Hilbert space and {ei} an orthonormal set in H. The following conditions are equi-
valent to one another
{ei} is complete (1.25)
x ⊥ {ei} ⇒ x = 0 (1.26)
∀ x ∈ H ⇒ x =
X
(ei, x) ei (1.27)
∀ x ∈ H ⇒ kxk2
=
X
|(ei, x)|2
(1.28)
This is perhaps the most important theorem in terms of applications in Physics, and in particular quantum
mechanics. It is convenient to discuss some terminology related with it. The numbers (x, ei) are called the Fourier
coeeficients of x and Eq. (1.27) is its Fourier expansion. Eq. (1.28) is called Parseval’s equation. All these equations
refer to a given complete orthonormal set.
This sequence of theorems are similar to the ones explained in the general theory of vector spaces in which
complete orthonormal sets replaced the concept of bases, and fourier expansions replaced linear combinations.
It is clear that for finite dimensional spaces Fourier expansions become linear combinations. On the other
hand, since orthonormal sets are linearly independent (Theorem 1.22), it is easy to see that in the case of finite
dimensional spaces complete orthonormal sets are linearly independent sets that generate any vector by linear
combinations. Hence, complete orthonormal sets are bases.
For infinite dimensional spaces there is a different story. If we remember that linear combinations are finite by
definition, we see that in this case Fourier expansions are not linear combinations. For a given linearly independent
set to be a basis, it is necessary for any vector of the space to be written as a linear combination of such a set,
basis certainly exists for Hilbert spaces according to theorem 1.3 but complete orthonormal sets are NOT bases
in the sense defined for the general theory of vector spaces.
Moreover theorem 1.18 shows that the Fourier expansion given in Eq. (1.27) is always countable, this is a
remarkable result because it means that the fourier expansion for a given complete orthonormal set is always a
series, even if the cardinality of the complete orthonormal set is higher than the aleph (cardinality of the integers).
The informal discussion above can be formally proved to produce the following statement
Theorem 1.24 A Hilbert space is finite dimensional if and only if every complete orthonormal set is a basis.
However, owing to the analogy between bases and complete orthonormal sets the following theorem is quite
expected
Theorem 1.25 Any two complete orthonormal sets of a given Hilbert space have the same cardinality.
And this fact induces a natural definition
Definition 1.20 The orthogonal dimension of a Hilbert space H is the cardinality of any complete orthonormal
set in H.
It is important to keep in mind the difference between the dimension and the orthogonal dimension of a Hilbert
space of infinite dimension.
1.9. HILBERT SPACES 31
1.9.2. The conjugate space H∗
We have defined the conjugate space of a Banach space B as the set of all functionals in B i.e. of all linear
continuous mappings of B into the scalars. We said however that the structure of the conjugate spaces of an
arbitrary Banach space is very complex. Fortunately, this is not the case for Hilbert spaces in which the inner
product provides a natural association between H and H∗.
Let y be a fixed vector in H and consider the function fy defined by
fy (x) ≡ (y, x) (1.29)
it is easy to prove linearity
fy (αx1 + βx2) = (y, αx1 + βx2) = α (y, x1) + β (y, x2)
fy (αx1 + βx2) = αfy (x1) + βfy (x2)
continuity comes from the Schwarz inequality
|fy (x)| = |(x, y)| ≤ kxk kyk ⇒ |fy (x)| ≤ kyk
then fy is bounded and so continuous. Indeed it can be shown that |fy (x)| = kyk. We then have found an
algorithm to generate some functionals from the mapping
y → fy (1.30)
described above, this is a norm preserving mapping of H into H∗. However, it can be shown that indeed this is a
mapping of H onto H∗ as stated in this
Theorem 1.26 Let H be a Hilbert space, and f an arbitrary functional in H∗. Then there exists a unique vector
y ∈ H such that
f (x) = (y, x) ∀x ∈ H
since the mapping (1.30) is norm preserving, we wonder whether it is linear, this is not the case because
fy1+y2 (x) = (y1 + y2, x) = (y1, x) + (y2, x) = fy1 (x) + fy2 (x)
fαy (x) = (αy, x) = α∗
(y, x) = α∗
fy (x)
such that
fy1+y2 = fy1 + fy2 ; fαy = α∗
fy (1.31)
however the mapping (1.30) is an isometry (it preserves metric) since
kfx − fyk = kfx−yk = kx − yk
we can characterize H∗ in the following way
Theorem 1.27 H∗ is a Hilbert space with respect to the inner product defined by (fx, fy) = (y, x).
32 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.9.3. The conjugate and the adjoint of an operator
A really crucial aspect of the theory of Hilbert spaces in Physics is the theory of operators (continuous linear
transformations of H into itself), we shall see later that observables in quantum mechanics appear as eigenvalues
of some of these operators.
We have defined the conjugate of an operator for Banach spaces but they are still too general to get a rich
structural theory of operators. The natural correspondence between H and H∗ will provide a natural relation
between a given operator on H and its corresponding conjugate operator on H∗.
Let T be an operator on a Banach space B. We defined an operator on B∗ denoted T∗ and called the conjugate
of T by Eq. (1.12)
[T∗
(f)] (x) = f (T (x)) (1.32)
and Eqs. (1.13, 1.14) says that T → T∗ is an isometric isomorphism (as vector spaces) between the spaces of linear
operators on H and H∗. We shall see that the natural correspondence between H and H∗ permits to induce in
turn an operator T† in H from the operator T∗ in H∗. The procedure is the following: starting from a vector y in
H we map it into its corresponding functional fy, then we map fy by the operator T∗ to get another functional
fz then we map this functional into its (unique) corresponding vector z in H the scheme reads
y → fy → T∗
fy = fz → z (1.33)
the whole process is a mapping of y to z i.e. of H into itself. We shall write it as a single mapping of H into itself
in the form
y → z ≡ T†
y
the operator T† induced in this way from T∗ is called the adjoint operator. Its action can be understood in the
context of H only as we shall see. For every vector x ∈ H we use the definition of T∗ Eq. (1.32) to write
[T∗
(fy)] (x) = fy (T (x)) = (y, Tx)
[T∗
fy] (x) = fz (x) = (z, x) =

T†
y, x

where we have used Eqs. (1.29, 1.33), so that
(y, Tx) =

T†
y, x

∀x, y ∈ H (1.34)
we can see that Eq. (1.34) defines T† uniquely and we can take it as an alternative definition of the adjoint operator
associated with T. It can also be verified that T† is indeed an operator, i.e. that it is continuous and linear. We
can also prove the following
Theorem 1.28 The adjoint operation T → T† is a one-to-one onto mapping with these properties
(T1 + T2)†
= T†
1 + T†
2 , (αT)†
= α∗
T†
,

T†
†
= T
(T1T2)†
= T†
2 T†
1 ;



T†



 = kTk ;



T†
T



 =



TT†



 = kTk2
0∗
= 0 , I∗
= I (1.35)
If T is non-singular then T† is also non-singular and

T†
−1
= T−1
†
1.10. NORMAL OPERATORS 33
Notice for instance that T†
†
= T implies that
(Ty, x) =

y, T†
x

∀x, y ∈ H (1.36)
We define the commutator of a couple of operators T1, T2 as
[T1, T2] ≡ T1T2 − T2T1
this operation has the following properties
[T1, T2] = − [T2, T1] (1.37)
[αT1 + βT2, T3] = α [T1, T3] + β [T2, T3] (1.38)
[T1, αT2 + βT3] = α [T1, T2] + β [T1, T3] (1.39)
[T1T2, T3] = T1 [T2, T3] + [T1, T3] T2 (1.40)
[T1, T2T3] = T2 [T1, T3] + [T1, T2] T3 (1.41)
[[T1, T2] , T3] + [[T3, T1] , T2] + [[T2, T3] , T1] = 0 (1.42)
such properties can be proved directly from the definition, Eq. (1.37) shows antisymmetry and Eqs. (1.38, 1.39)
proves linearity. Finally, relation (1.42) is called the Jacobi identity.
It can be seen that the space of operators on a Hilbert space H (called ß(H)) is a Banach space and more
generally a Banach Algebra. This organization permits an elegant theory of the operators on Hilbert spaces.
The theory of quantum mechanics works on a Hilbert space. In addition, the most important operators on
the Hilbert space in quantum mechanics are self-adjoint and unitary operators, which are precisely operators that
have a specific relation with their adjoints.
1.10. Normal operators
Definition 1.21 An operator on a Hilbert space H that commutes with its adjoint

N, N†

= 0 is called a normal
operator
There are two reasons to study normal operators (a) From the mathematical point of view they are the most
general type of operators for which a simple structure theory is possible. (b) they contain as special cases the most
important operators in Physics: self-adjoint and unitary operators.
It is clear that if N is normal then αN is. Further, the limit N of any convergent sequence of normal operators
{Nk} is also normal



NN†
− N†
N



 ≤



NN†
− NkN†
k



 +



NkN†
k − N†
kNk



 +



N
†
kNk − N†
N



=



NN†
− NkN†
k



 +



N†
kNk − N†
N



 → 0
then NN† − N†N = 0 and N is normal then we have proved
Theorem 1.29 The set of all normal operators on H is a closed subset of ß(H) that is closed under scalar
multiplication
It is natural to wonder whether the sum and product of normal operators is normal. They are not, but we can
establish some conditions for these closure relations to occur
Theorem 1.30 If N1 and N2 are normal operators on H with the property that either commutes with the adjoint
of the other, then N1 + N2 and N1N2 are normal.
34 CAPÍTULO 1. LINEAR OR VECTOR SPACES
The following are useful properties for the sake of calculations in quantum mechanics
Theorem 1.31 An operator N on H is normal ⇔ kNxk =


N†x


 ∀x ∈ H
Theorem 1.32 If N is a normal operator on H then


N2


 = kNk2
1.11. Self-Adjoint operators
We have said that the space of operators on a Hilbert space H (called ß(H)), is a special type of algebra (a
Banach Algebra) which has an algebraic structure similar to the one of the complex numbers, except for the fact
that the former is non-commutative. In particular, both are complex algebras with a natural mapping of the space
into itself of the form T → T† and z → z∗ respectively. The most important subsystem of the complex plane is the
real line defined by the relation z = z∗, the corresponding subsystem in ß(H) is therefore defined as T = T†, an
operator that accomplishes that condition is called a self-adjoint operator. This is the simplest relation that can
be established between an operator and its adjoint. It is clear that self-adjoint operators are normal. Further, we
already know that 0† = 0 and I† = I thus they are self-adjoint. A real linear combination of self-adjoint operators
is also self-adjoint
(αT1 + βT2)†
= α∗
T†
1 + β∗
T†
2 = αT†
1 + βT†
2
further, if {Tn} is a sequence of self adjoint operators that converges to a given operator T, then T is also
self-adjoint



T − T†



 ≤ kT − Tnk +



Tn − T†
n



 +



T†
n − T†



 = kT − Tnk + kTn − Tnk +



T†
n − T†



= kT − Tnk +



(Tn − T)†



 = kT − Tnk + k(Tn − T)k = 2 kT − Tnk → 0
shows that T − T† = 0 so that T = T† this shows the following
Theorem 1.33 The self-adjoint operators in ß(H) are a closed real linear subspace of ß(H) and therefore a real
Banach space which contains the identity transformation
Unfortunately, the product of self-adjoint operators is not necessarily self-adjoint hence they do not form an
algebra. The only statement in that sense is the following
Theorem 1.34 If T1, T2 are self-adjoint operators on H, their product is self-adjoint if and only if [T1, T2] = 0
It can be easily proved that T = 0 ⇔ (x, Ty) = 0 ∀x, y ∈ H. It can be seen also that
Theorem 1.35 If T is an operator on a complex Hilbert space H then T = 0 ⇔ (x, Tx) = 0 ∀x ∈ H.
It should be emphasized that the proof makes explicit use of the fact that the scalars are complex numbers
and not merely the real system.
The following theorem shows that the analogy between self-adjoint operators and real numbers goes beyond
the simple analogy from which the former arise
Theorem 1.36 An operator T on H is self-adjoint⇔ (x, Tx) is real ∀x ∈ H.
An special type of self-adjoint operators are the following ones
Theorem 1.37 A positive operator on H is a self-adjoint operator such that (x, Tx) ≥ 0, ∀x ∈ H. Further, if
(x, Tx) ≥ 0, and (x, Tx) = 0 ⇔ x = 0 we say that the operator is positive-definite.
1.12. UNITARY OPERATORS 35
It is clear that the following operators are positive: 0, I, TT†, T†T note also that all the analoguous elements
in the complex plane are non-negative numbers 0, 1, zz∗ = z∗z = |z|2
.
Theorem 1.38 If A is a positive operator then I + A is non-singular
Continuing the analogy between ß(H) and the algebra of complex numbers, we can see that a complex number
can be written as its real and imaginary parts in the form
z = a1 + ia2 ; a1 ≡
z + z∗
2
, a2 ≡
z − z∗
2i
in a similar way we can decompose an arbitrary operator T on H in the form
T = A1 + iA2 ; A1 ≡
T + T†
2
; A2 ≡
T − T†
2i
(1.43)
it is clear that A1 and A2 are self-adjoint so they can be called the “real” and “imaginary” components of the
T operator. If T is self-adjoint its imaginary part is zero as expected. We can see that it is precisely because of
the non commutativity of the self-adjoint operators that non-normal operators exist
Theorem 1.39 If T is an operator on H it is normal ⇔ its real and imaginary parts commute
1.12. Unitary operators
Perhaps the most important subsystem of the complex plane after the real line is the unit circle characterized
by the equation zz∗ = z∗z = |z|2
= 1. This leads to a natural definition of an special subset of the normal operators
Definition 1.22 An operator U on H which satisfies the equation UU† = U†U = I is said to be unitary
Unitary operators are thus the analogues of complex numbers of unitary absolute value. In words, unitary
operators are those non-singular operators whose inverses equal their adjoints, they are thus mappings of H onto
itself. The geometric significance of these operators can be clarified with the following theorem
Theorem 1.40 If T is an operator on H, the following conditions are equivalent to one another
T†
T = I (1.44)
(Tx, Ty) = (x, y) ∀x, y ∈ H (1.45)
kT (x)k = kxk ∀x ∈ H (1.46)
In general an operator T with any of the properties (1.44-1.46), is an isometric isomorphism of H into itself,
since T preserves linear operations, as well as the inner product and the norm (and thus the metric). For finite-
dimensional spaces any of them are necessary and sufficient conditions for T to be unitary. Nevertheless, this is
not the case when we treat with infinite-dimensional spaces, let us see an example: consider the operator T in C∞
given by
T {x1, x2, ...} = {0, x1, x2, ...}
which preserves norms but has no inverse. The point is that this is an isometric isomorphism into H but not onto
H (the image does not contain any element of C∞ with a non-null first component). So in the case of infinite
dimension, the condition to be onto must be added to the conditions (1.44-1.45) for an operator to be unitary.
Theorem 1.41 An operator on H is unitary⇔is an isometric isomorphism of H onto itself.
36 CAPÍTULO 1. LINEAR OR VECTOR SPACES
In words, unitary operators are those one-to-one and onto operators that preserve all structure relevant for a
Hilbert space: linear operations, inner products, norm and metric.
In practice, unitary operators usually appear in Physics as operations that keep the norm of the vectors
unaltered (like rotations in ordinary space), even this is usually the definition utilized in Physics books.
There is another theorem useful in the theory of representations for Hilbert spaces which is also used sometimes
as the definition
Theorem 1.42 An operator T on H is unitary ⇔ T {ei} is a complete orthonormal set whenever {ei} is.
Another important characteristic for physical applications is the following
Theorem 1.43 The set of all unitary operators on H forms a group
1.13. Projections on Hilbert spaces
In Banach spaces we defined projections as idempotent continuous linear transformations or equivalently as
idempotent operators. We also saw that a couple of closed subspaces such that B = M ⊕ N induces a projection
and viceversa. We saw however that for a given closed subspace M of B there is not necessarily another closed
subspace such that B = M ⊕ N.
In contrast, theorem 1.16 guarantees that for a given closed subspace M of a Hilbert space H there always
exists a decomposition with another closed subspace in the form H = M ⊕ M⊥. Besides, in this decomposition
the closed complementary space is precisely the orthogonal complement of M. Since orthogonality is a very
important new concept that arises from Hilbert spaces, we shall concentrate on projections induced by this
particular decomposition. It is then natural to look for the new features required by a given projection in order
to have M as its range and M⊥ as its null space
Theorem 1.44 If P is a projection (with the definition given for Banach spaces) on H with range M and null
space N then M ⊥ N ⇔ P = P† and in this case N = M⊥.
A projection in which its range and null space are perpendicular is called an orthogonal projection. Indeed,
orthogonal projections are the only ones that are relevant in the theory of operators on Hilbert spaces, then we
shall redefine the concept of projection once again
Definition 1.23 A projection on a Hilbert space will be defined as an idempotent, continuous, and self-adjoint
linear transformation. If idempotent, continuous, non-self adjoint linear transformations are of some use, we call
them non-orthogonal projections.
The following facts are easy to show, 0 and I are projections and they are distinct if and only if H 6= {0}. P
is the projection on M ⇔ I − P is the projection on M⊥.
We can also see that
x ∈ M ⇔ Px = x ⇔ kPxk = kxk
it can also be seen that P is a positive operator and kPk ≤ 1.
Sometimes occur in Physics that a given operator T on H maps a proper subspace M of H into itself. The
following chain of definitions permits to study this kind of operators
Definition 1.24 Let T be an operator on H, and M a closed vector subspace of H. M is said to be invariant
under T if T (M) ⊆ M.
In this case the restriction of T to M can be regarded as an operator of M into itself. A more interesting
situation occurs when M and M⊥ are invariant under T
1.14. THEORY OF REPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 37
Definition 1.25 If both M and M⊥ are invariant under T, we say that M reduces T or that T is reduced by M.
This situation invites us to study T by restricting its domain to M and M⊥. The projections provide the most
relevant information for these scenarios
Theorem 1.45 A closed vector subspace M is invariant under an operator T ⇔ M⊥ is invariant under T†
Theorem 1.46 A closed vector subspace M reduces an operator T ⇔ M is invariant under both T and T†
Theorem 1.47 If P is the projection on a closed vector subspace M of H, M is invariant under an operator
T ⇔ TP = PTP
Theorem 1.48 If P is the projection on a closed vector subspace M of H, M reduces an operator T ⇔ TP = PT
Theorem 1.49 If P and Q are projections on closed linear subspaces M and N then M ⊥ N ⇔ PQ = 0 ⇔
QP = 0
We wonder whether the sum of projections in our present sense is also a projection. This is the case only
under certain conditions
Theorem 1.50 If P1, .., Pn are projections on closed subspaces M1, .., Mn of a Hilbert space H, then the sum
P = P1 +..+Pn is a projection ⇔the P′
i s are pairwise orthogonal i.e. PiPj = δijPi, in that case P is the projection
on M = M1 + .. + Mn.
1.14. Basic theory of representations in a general finite dimensional vector
space
In this section we intend to establish an equivalence between abstract objects such as elements of vector spaces
and linear transformations, in a more tangible language suitable for explicit calculations. This is the gist of the
theory of representations for vector spaces
1.14.1. Representation of vectors and operators in a given basis
If n is the dimension of a finite-dimensional vector space V , a set of n linearly independent vectors in V , forms
a basis for the vector space. Given a certain ordered basis {u1, .., un} in a vector space V any vector can be
written as a linear combination of such a basis, we shall use the convention of sum over repeated indices
x = xiui (1.47)
The coefficients xi are called the coordinates of the vector x, relative to the ordered basis {ui}. Linear inde-
pendence ensures that the set of coordinates (x1, .., xn) is unique when the basis is ordered in a well-defined way.
Therefore, this set of coordinates provides a representation of the vector x with respect to the ordered basis {ui}.
A mapping T of V into itself, associates each vector x with another vector y in V
y = Tx
if the mapping is one-to-one and onto it admits an inverse1
x = T−1
y
1
If the mapping is only one-to-one but not onto, the inverse still exist but restricted to the vector subspace in which all the vectors
x ∈ V are mapped.
38 CAPÍTULO 1. LINEAR OR VECTOR SPACES
if the transformation is linear we have
T (αx+βy) = αTx + βTy ∀x, y ∈ V
where α and β are complex numbers. The definition of T is intrinsic and does not depend on the particular basis
chosen for the vector space. Notwithstanding, for many practical purposes we define a representation of both
the vectors and operators in a basis {ui}. In that case, we can describe the action of T by a transformation of
coordinates (in the same basis)
yi = Ti (x1, x2, . . . , xn) i = 1, . . . , n
if Ti admits an inverse we get
xi = T−1
i (y1, y2, . . . , yn) i = 1, . . . , n
the necessary and sufficient condition for the existence of the inverse is that the jacobian J ≡ ∂Ti/∂xj be different
from zero.
On the other hand, if we assume that T is a linear transformation we can write
y = Tx = T (xiui) = xiTui (1.48)
Eq. (1.48) says that y is a linear combination of the vectors Tui, and the coefficients of the combination
(coordinates) coincide with the coordinates of x in the basis ui. The vectors Tui must be linear combinations of
{uj} and we denote the coefficients of these linear combinations as Tji
vi ≡ Tui = ujTji (1.49)
the real or complex coefficients Tji can be organized in a square arrangement of the form
T ≡





T11 T12 · · · T1n
T21 T22 · · · T2n
.
.
.
.
.
. · · ·
.
.
.
Tn1 Tn2 · · · Tnn





this square arrangement symbolized as T is called the matrix representative of the linear transformation T relative
to the ordered basis {ui}. Substituting in Eq. (1.48)
yjuj = ujTjixi
and since the uj are linearly independent
yj = Tjixi
this operation is represented by the following notation





y1
y2
.
.
.
yn





=





T11 T12 · · · T1n
T21 T22 · · · T2n
.
.
.
.
.
. · · ·
.
.
.
Tn1 Tn2 · · · Tnn










x1
x2
.
.
.
xn










y1
y2
.
.
.
yn





=





T11x1 + T12x2 + .. + T1nxn
T21x1 + T22x2 + .. + T2nxn
.
.
.
Tn1x1 + Tn2x2 + .. + Tnnxn





and is usually written in the form
y = Tx
1.14. THEORY OF REPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 39
the last equality appears in matrix notation where T is the matrix representative of the linear operator T in the
ordered basis ui. Similarly, x and y are the coordinate representatives of the intrinsic vectors in the same ordered
basis. Eq. (1.49) shows clearly how to construct the matrix T, i.e. applying the operator to each vector in the
basis, and writing the new vectors as linear combinations of the basis. The coefficient of the i − th new vector
associated to the j − th element of the basis gives the element Tji in the associated matrix. Observe that for a
matrix representative to be possible, the linearity was fundamental in the procedure.
On the other hand, since we are looking for an isomorphism among linear transformations on V and the set
of matrices (as an algebra), we should define linear operations and product of matrices in such a way that these
operations are preserved in the algebra of linear transformations. In other words, if we denote by [T] the matrix
representative of T in a given ordered basis we should find operations with matrices such that
[T1 + T2] = [T1] + [T2] ; [αT] = α [T] ; [T1T2] = [T1] [T2]
we examine first the product by a scalar, according to the definition (1.7) we have
(αT) (ui) = α (Tui) = α (ujTji) = uj (αTji) ⇒
(αT) (ui) = uj (αTji) ⇒ (uj) (αT)ji = uj (αTji)
using linear independence we obtain the algorithm for scalar multiplication
(αT)ji = αTji
Now for the sum we use the definition 1.6
(T + U) uj = Tuj + Uuj = uiTij + uiUij = ui (Tij + Uij) ⇒
(T + U) uj = ui (Tij + Uij) ⇒ ui (T + U)ij = ui (Tij + Uij)
and along with linear independence it leads to
(T + U)ij = (Tij + Uij)
Moreover, for multiplication (composition) we use definition 1.9
(TU) ui = T (Uui) = T (ujUji) = UjiT (uj) = Uji (Tuj) = Uji (ukTkj) ⇒
(TU) ui = (TkjUji) uk ⇒ uk (TU)ki = uk (TkjUji)
linear independence gives
(TU)ki = TkjUji (1.50)
It can be easily shown that the matrix representations of the operators 0 and I are unique and equal in any
basis, they correspond to [0]ij = 0 and [I]ij = δij.
Finally, we can check from Eq. (1.49) that the mapping T → [T] is one-to-one and onto. It completes the proof
of the isomorphism between the set of linear transformations and the set of matrices as algebras.
On the other hand, owing to the one-to-one correspondence T ↔ [T] and the preservation of all operations, we
see that non-singular linear transformations (i.e. invertible linear transformations) should correspond to invertible
matrices. We denote

T−1

the matrix representative of T−1, and our goal is to establish the algorithm for this
inverse matrix, the definition of the inverse of the linear transformation is
TT−1
= T−1
T = I
since the representation of the identity is always [I]ij = δij, the corresponding matrix representation of this
equation is
[T]ik

T−1

kj
=

T−1

ik
[T]kj = δij (1.51)
this equation can be considered as the definition of the inverse of a matrix if it exists. A natural definition is then
40 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Definition 1.26 A matrix which does not admit an inverse is called a singular matrix. Otherwise, we call it a
non-singular matrix.
Since T−1 is unique, the corresponding matrix is also unique, so the inverse of a matrix is unique when it exists.
A necessary and sufficient condition for a matrix to have an inverse is that its determinant must be non-zero.
The algebra of matrices of dimension n × n is called the total matrix algebra An, the preceding discussion can
be summarized in the following
Theorem 1.51 if B = {u1, .., un} is an ordered basis of a vector space V of dimension n, the mapping T → [T]
which assigns to every linear transformation on V its matrix relative to B, is an isomorphism of the algebra of
the set of all linear transformations on V onto the total matrix algebra An.
Theorem 1.52 if B = {u1, .., un} is an ordered basis of a vector space V of dimension n, and T a linear
transformation whose matrix relative to B is [aij]. Then T is non-singular ⇔ [aij] is non-singular and in this case
[aij]−1
=

T−1

.
1.14.2. Change of coordinates of vectors under a change of basis
We have already seen that any vector space has an infinite number of bases. Notwithstanding, once a given
basis is obtained, any other one can be found by a linear transformation of the original basis.
Let {uj} be our “original” ordered basis and
n
u′
j
o
any other ordered basis. Each u′
i is a linear combination
of the original basis
u′
i = aijuj i = 1, . . . , n (1.52)
linear independence of {ui} ensures the uniqueness of the coefficients aij. The natural question is whether we
require any condition on the matrix representation aij in Eq. (1.52) to ensure that the set
n
u′
j
o
be linearly inde-
pendent. If we remember that there is a one-to-one correspondence between matrices and linear transformations
we see that aij must correspond to a (unique) linear transformation A. In this notation Eq. (1.52) becomes
u′
i = Auj (1.53)
now appealing to theorem 1.9 we see that
n
u′
j
o
is a basis if and only if A is non-singular, but A is non-singular
if and only if [A]ij = aij is a non-singular matrix. Thus Eq. (1.53) can be written in matrix notation as
u′
= Au (1.54)
the new set {u′
i} is a basis if and only if the matrix A is non-singular. Any vector x can be written in both bases
x = xiui = x′
iu′
i = x′
iaijuj = x′
jajiui (1.55)
and owing to the linear independence of ui
xi = x′
jaji = ãijx′
j ; ãij ≡ aji
where ãij ≡ aji indicates the transpose of the matrix A. In matrix form we have
u′
= Au , x = Ãx
′
(1.56)
and using Eq. (1.56) we get
x′
= Ã−1
x (1.57)
1.14. THEORY OF REPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 41
observe that if the original basis transform to the new one by a non-singular matrix A (Eq. 1.54), the original
coordinates transform to the new ones by the matrix Ã−1 (Eq. 1.57). It is easy to show that Ã−1 = g
A−1 then e
A
is non-singular if and only if A is non-singular. Hence Eq. (1.57) makes sense whenever A is non-singular.
Defining the transpose of a column matrix as
x̃ = (x1, x2, . . . , xn)
Equation (1.55) can be written as
x = x̃u = x̃′
u′
which gives a convenient notation for the coordinate-form of vectors in different basis.
It is important to emphasize that the vector x has an intrinsic meaning while its coordinates depend on the
basis chosen.
1.14.3. Change of the matrix representative of linear transformations under a change of
basis
Let us define an intrinsic equation for a linear transformation T of V into itself
y = Tx (1.58)
y and x denote here intrinsic vectors while y, x are their representation in coordinates under a given ordered basis.
Starting with the ordered basis {ui} we write equation (1.58) in matrix form
y = Tx (1.59)
for any other ordered basis {u′
i} the matrix and coordinate representatives are different and we write them as
y′
= T′
x′
(1.60)
we remark that Eqs. (1.59) and (1.60) represents the same intrinsic Equation (1.58).
Since we know the relation between the coordinate representatives given by Eq. (1.57), our goal here is to
know the relation between the matrix representatives of T. Using Eq. (1.57) we find
y′
= Ã−1
y = Ã
−1
Tx = Ã
−1
TÃÃ
−1
x =

Ã−1
TÃ
 
Ã−1
x

y′
= T′
x′
(1.61)
where we have defined
T′
≡ Ã−1
TÃ (1.62)
from Eqs. (1.61, 1.62) we see that T′ is the representative matrix of the operator T in the new basis u′
i where
the matrix Ã−1 gives the transformation between coordinates from the old basis to the new one Eq. (1.57). We
remember that A must be non-singular to represent a change of basis.
Definition 1.27 The transform of a matrix A (also called a similarity transformation) by a non singular matrix
S, is defined as A′ = SAS−1
. The matrices A′ and A are said to be equivalent.
Eq. (1.62) shows that the new matrix representation of T (i.e. T′), is equivalent2 to the old matrix represen-
tation T, and the transform of T by Ã−1 is T′.
2
Similarity transformations provides an equivalence relation between two matrices. Thus, the expression equivalent matrices becomes
logical. In addition, we see that T and T′
describe the same mathematical object (though in different bases), so that the term equivalence
acquires more sense in this context.
42 CAPÍTULO 1. LINEAR OR VECTOR SPACES
We can also consider a transformation S from a vector space V into another V ′
x′
= Sx, x = S−1
x′
For S−1 to be linear, it is necessary that V and V ′ be of the same dimensionality. If a linear operator T is defined
in V , then T and S induce a linear operator in V ′ in the following way let map x′ of V ′ into y′ of V ′ in the
following way
x′
→ x = S−1
x′
→ y = Tx = T S−1
x′

→ y′
= Sy = S T S−1
x′

hence the mapping x′ → y′ has been performed as
x′
→ y′
= STS−1

x′

or course, we can define a mapping T′ of V ′ into itself that makes the work in a single step, thus
T′
≡ STS−1
; y′
= T′
x′

(1.63)
The transformation given by (1.63) is also a similarity transformation. Although the transformations shown in
(1.62) and (1.63) resembles, they have fundamental differences. In (1.62) we are representing the same mathemati-
cal object by taking different bases, and is a matrix equation. By contrast, Eq. (1.63) expresses a relation between
two different mathematical transformations acting on different spaces3, and the equation is intrinsic, independent
of the basis.
1.15. Active and passive transformations
In Physics, it is important to differentiate between two types of transformations, the passive ones and the
active ones. We can understand passive transformations by examining the transformations y → y′, x → x′ and
T → T′ to go from Eq. (1.59) to Eq. (1.60), if we remember that both are representatives of the same intrinsic
equation (1.58) we realize that the mappings described above do not change the vectors or the transformation but
only their representatives. These mappings (called passive mappings) thus correspond to a change in the basis
and not to a change on the mathematical objects by themselves.
In contrast, an active mapping or transformation transforms a mathematical object into another one. For
instance, in the first of Eqs. (1.63) we map a linear transformation on V into a different linear transformation
on V ′, the mathematical object itself has changed. Similarly the mapping x′ → y′ through T′ described by the
second of Eqs. (1.63) is an active transformation because x′ and y′ are two different vectors.
The difference between a passive and active mappings or transformations should be clear from the context.
For instance Eqs. (1.62) and (1.63) are identical in form from the algebraic point of view, but (1.62) represents a
passive transformation (a change of basis or a change of representation), while (1.63) represents an active one.
1.16. Theory of representations on finite dimensional Hilbert spaces
We shall study n−dimensional Hilbert spaces. We remember that an inner product is a mapping that takes an
ordered pair of vectors x, y in a vector space V, and associates to it a scalar α denoted by α = (x, y) such that
(x, y) = (y, x)∗
; (x, βy) = β (x, y) ; (x1 + x2, y) = (x1, y) + (x2, y)
(x, x) ≥ 0, and (x, x) = 0 ⇔ x = 0
3
It could be argued that both spaces are identical since they have the same dimensionality. This is true only for their properties as
general vector spaces, but not necessarily for any additional algebraic or topological structure on them.
1.16. THEORY OF REPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 43
the definition of the inner product is intrinsic (basis independent). The norm of a vector is defined as kxk2
≡ (x, x).
This in turn allows us to normalized the vectors, i.e. construct vectors with norm or “length” equal to one by the
rule
ui =
xi
p
(x, x)
=
xi
kxik
(1.64)
such that (ui, ui) = 1. Different inner products defined into the same vector space, lead to different Hilbert spaces.
Another important concept that arises from the inner product is that of orthogonality. An orthonormal set is a
set {xi} with xi ∈ H such that
(xi, xj) = δij
The theory of representations of a finite dimensional Hilbert space is particularly simple if we realize that in finite
dimension, the Fourier expansion given by Eq. (1.27) becomes a linear combination, the series in (1.28) to calculate
the norm becomes a finite sum, and finally complete orthonormal sets become bases. These are the main ideas
that lead to the theory of representations in a Hilbert space
Our first goal is to find the way in which the coordinates of a given vector are obtained from the inner product.
We first see the form of the coordinates when the basis consists of a complete orthonormal basis. Rewriting the
Fourier expansion (1.27) in finite dimension and using sum over repeated indices we have
x = (ui, x) ui = xiui
so the coordinate of a vector x associated with the normal vector ui is given by
xi = (ui, x)
Let us now see how an arbitrary inner product can be calculated using an orthonormal basis
(x, y) = (xiui, yjuj) = x∗
i yj (ui, uj) = x∗
i yjδij = x∗
i yi (1.65)
the norm of a vector is also easily seen as
kxk2
= (x, x) = x∗
i xi = |xi| |xi| (1.66)
if the basis {vi} is not an orthonormal set, we can express the scalar product by determining the numbers
mij ≡ (vi, vj) (1.67)
the properties of the inner product lead to mij = m∗
ji. This numbers form a matrix that we shall call the metric
matrix. Defining (Aij)†
≡ A∗
ji (the adjoint or hermitian conjugate of the matrix A) we find that m = m†, from
the definition of the adjoint matrix we see that (AB)†
= B†A†. A matrix that coincides with its adjoint is called
self-adjoint or hermitian. The metric matrix is hermitian. We shall see now that knowing the metric matrix in a
certain basis, we can find any possible inner product
(x, y) = (xivi, yjvj) = x∗
i yj (vi, vj) = x∗
i mijyj
(x, y) = x†
my
and the norm becomes
(x, x) = x∗
i mijxj = x†
mx (1.68)
representing x as a one column matrix, x† is a one row matrix with the coordinates conjugated. The quantities of
the form x†Ay, with A hermitian, are called hermitian forms. If additionally we impose that x†Ax ≥ 0, we have
a positive definite hermitian form4.
4
An inner product guarantees that the hermitian form constructed with the metric matrix are positive-definite. However, it is usual
in relativity to define a pseudo-metric that leads to non positive definite hermitian forms. Observe that the metric tensor in relativity
has some negative diagonal elements which would be forbidden if they arose from an authentic inner product.
44 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Gram-Schmidt process for orthonormalization of linearly independent sets
From the previous discussion, it is very clear that complete orthonormal sets posses many advantages with
respect to other sets of linearly independent vectors. It leads us to study the possibility of finding an orthonormal set
from a given set of linearly independent vectors in a Hilbert space. The so-called Gram-Schmidt orthonormalization
process starts from an arbitrary set of independent vectors {x1, x2, .., xn, ...} on H and exhibits a recipe to construct
a corresponding orthonormal set {u1, u2, .., un, ...} with the property that for each n the vector subspace spanned
by {u1, u2, .., un} is the same as the one spanned by {x1, x2, .., xn}.
The gist of the procedure is based on Eqs. (1.24, 1.64). We start by normalizing the vector x1
u1 =
x1
kx1k
now we substract from x2 its component along u1 to obtain x2 − (u1, x2) u1 and normalized it
u2 =
x2 − (u1, x2) u1
kx2 − (u1, x2) u1k
it should be emphasized that x2 is not a scalar multiple of x1 so that the denominator above is non-zero. It is
clear that u2 is a linear combination of x1, x2 and that x2 is a linear combination of u1, u2. Therefore, {u1, u2}
spans the same subspace as {x1, x2}. The next step is to substract from x3 its components in the directions u1
and u2 to get a vector orthogonal to u1 and u2 according with Eq. (1.24). Then we normalize the result and find
u3 =
x3 − (u1, x3) u1 − (u2, x3) u2
kx3 − (u1, x3) u1 − (u2, x3) u2k
once again {u1, u2, u3} spans the same subspace as {x1, x2, x3}. Continuing this way we clearly obtain an ortho-
normal set {u1, u2, .., un, ...} with the stated properties.
Many important orthonormal sets arise from sequences of simple functions over which we apply the Gram-
Schmidt process
In the space L2 of square integrable functions associated with the interval [−1, 1], the functions xn (n =
0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the orthonormal
set of the Legendre Polynomials.
In the space L2 of square integrable functions associated with the entire real line, the functions xne−x2/2
(n = 0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the normalized
Hermite functions.
In the space L2 associated with the interval [0, +∞), the functions xne−x (n = 0, 1, 2, ..) are linearly indepen-
dent. Orthonormalizing it we obtain the normalized Laguerre functions.
Each of these orthonormal sets described above can be shown to be complete in their corresponding Hilbert
spaces.
1.16.1. Linear operators in finite dimensional Hilbert spaces
First of all let us see how to construct the matrix representation of a linear operator by making profit of the
inner product. Eq. (1.49) shows us how to construct the matrix representation of T in a given basis by applying
the operator to each element ui of such a basis
Tui = ujTji ⇒ (uk, Tui) = (uk, ujTji)
⇒ (uk, Tui) = Tjimkj
if the basis is orthonormal then mkj = δkj and
Tki = (uk, Tui) (1.69)
1.16. THEORY OF REPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 45
Eq. (1.69) gives the way to construct an element of the matrix representative of an operator T on H through the
inner product and using an orthonormal basis.
Now we turn to the problem of finding a relation between the matrix representative of an operator and the
matrix representative of its adjoint. If we have a linear operator T on a Hilbert space, another operator called its
adjoint and denoted as T† exists such that
(Tx, y) =

x, T†
y

∀x, y ∈ V
the matrix representative of T† has a rather simple relation with the matrix representative of T when an ortho-
normal basis is used
(T (xiui) , ykuk) = (xiT (ui) , ykuk) = x∗
i yk (Tui, uk)
and using (1.49) we find
x∗
i yk (ujTji, uk) = x∗
i ykT∗
jiδjk = x∗
i ykT∗
ki = x∗
i
e
T∗
ikyk
on the other hand we have 
x, T†
y

= x∗
i

T†

ik
yk
and taking into account that x and y are arbitrary, we have

T†

ik
= e
T∗
ik ⇒ T†
= e
T∗
(1.70)
and so the matrix representative of T† is the conjugate transposed of the matrix representative of T. Once again,
it is important to emphasize that it is only valid in an orthonormal basis, it can easily be proved that for an
arbitrary basis described by the metric matrix m, the matrix representation of T† is m−1 e
T∗m. Remembering
that an operator is hermitian or self-adjoint if it coincides with its adjoint operator (T = T†) i.e. (Tx, y) =
(x, Ty) , ∀x, y ∈ V, we conclude that in an orthonormal basis, hermitian operators are represented by hermitian
matrices.
In particular, the form to calculate the norm described in (1.66), is usually taken for granted and it is easy to
forget that it only applies in orthonormal bases as we can see from (1.68). This is because the coordinates of a
vector with respect to {vi} are not given by Fourier coefficients of the form described in Eq. (1.27)
Now assume that we go from an orthonormal basis ui into another orthonormal basis u′
i. We know from
theorem 1.42 that a linear operator is unitary if and only if it transforms a complete orthonormal set into another
complete orthonormal set, then if A is a unitary operator we have
δij = (Aui, Auj) = u′
i, u′
j

= (ukaki, umamj) = a∗
kiamj (uk, um) = a∗
kiamjδkm
δij = a∗
kiakj = e
a∗
ikakj
so the matrix of transformation from ui into u′
i accomplishes
A†
A = 1
now, if we demand for the matrix to be non-singular it must have a unique inverse such that
A†
A = AA†
= 1
therefore a matrix that transform an orthonormal basis into another orthonormal basis must satisfy
A†
= A−1
by theorem 1.51 these matrices are associated with unitary operators as long as we use an orthonormal basis, thus
it is natural to call them unitary matrices.
46 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.17. Determinants and traces
A very important property of any matrix is its determinant denoted by |A| and is a real or complex number
associated with the matrix. Its construction was primarily motivated by the study of simultaneous linear equations.
We assume that the reader is familiarized with the concept and the calculation of this quantity. We have mentioned
that a matrix admits an inverse if and only if its determinant is non-null. This is because the inverse of a matrix
A depends on |A|−1
. The determinant of the transpose coincides with the determinant of the matrix
e
A
= |A| (1.71)
a for the conjugate matrix (in which we conjugate each of its elements) we get
|A∗
| = |A|∗
(1.72)
Additionally it can be demostrated that the determinant of the product is the product of the determinants
|AB| = |A| · |B| (1.73)
and since the determinant of the identity is 1 we get
1 = |1| =
AA−1
= |A| ·
A−1
so that
A−1
= |A|−1
(1.74)
if any row or column is multiplied by a scalar α, the determinant is also multiplied by the scalar. For example in
three dimensions


α a11 α a12 α a13
a21 a22 a23
a31 a32 a33


=


a11 α a12 a13
a21 α a22 a23
a31 α a32 a33


= α


a11 a12 a13
a21 a22 a23
a31 a32 a33


(1.75)
so that if we multiply an n × n matrix by a scalar, the determinant is
|αA| = αn
|A| (1.76)
in particular
|−A| = (−1)n
|A| (1.77)
another important property is the trace of the matrix defined as the sum of its diagonal elements
TrA = aii (1.78)
we emphasize the sum over repeated indices. We prove that
Tr [AB] = Tr [BA] (1.79)
in this way
Tr [AB] = (AB)ii = aikbki = bkiaik = (BA)kk = Tr [BA]
it is important to see that the trace is cyclic invariant, i.e.
Tr
h
A(1)
A(2)
. . . A(n−2)
A(n−1)
A(n)
i
= Tr
h
A(n)
A(1)
A(2)
. . . A(n−2)
A(n−1)
i
= Tr
h
A(n−1)
A(n)
A(1)
A(2)
. . . A(n−2)
i
(1.80)
1.18. RECTANGULAR MATRICES 47
and so on. To prove it, we define
B ≡ A(1)
A(2)
. . . A(n−1)
so that
Tr
h
A(1)
A(2)
. . . A(n−2)
A(n−1)
A(n)
i
= Tr
h
BA(n)
i
= Tr
h
A(n)
B
i
= Tr
h
A(n)
A(1)
A(2)
. . . A(n−2)
A(n−1)
i
and taking into account that the indices (1) , (2) , ... are dummy, any cyclic change is posible. It worths saying that
property (1.79) does not mean that the matrices can be commuted to calculate the trace, for instance for three
or more matrices the trace is not the same for any order of the matrices, only cyclic changes are possible. In that
sense, we should interpret (1.79) as a cyclic change and not as a commutation.
But the most important properties of the traces and determinants is that they are invariant under a similarity
transformation
A′
=
BAB−1
= |B| · |A| ·
B−1
= |B| · |A| · |B|−1
⇒
A′
= |A|
where we have used (1.73) and (1.74). Now for the invariance of the trace
TrA′
= Tr

BAB−1

=
n
X
i=1
BAB−1

ii
=
X
ikl
bikaklb̄li =
X
ikl
b̄libikakl =
X
kl
δklakl =
X
k
akk = TrA
alternatively we can see it by using the cyclic invariance of the trace (see Eq. 1.80), such that
Tr

A′

= Tr

BAB−1

= Tr

B−1
BA

= TrA
the invariance of determinants and traces under similarity transformations are facts of major importance because
all representations of a given linear transformation are related each other by similarity transformations. It means
that determinants and traces are intrinsic quantities that can be attributed to the linear transformations thus
Definition 1.28 We define the trace and the determinant of a given linear transformation of V into itself by
calculating the trace and determinant of the matrix representative of the linear transformation in any basis.
1.18. Rectangular matrices
A rectangular matrix is an arrangement of numbers consisting of m rows and n columns. In that case we say
that the matrix has dimensions m × n. The elements of such a matrix will be of the form
(A)ik = aik ; i = 1, . . . , m ; k = 1, . . . , n
the transpose of this matrix would have dimensions n × m. A column vector arrangement (from now on, we shall
call it simply a “vector”, though it is not neccesarily a vector in all the sense of the word) is a rectangular matrix
of dimension m × 1, its transpose (a row “vector”) is a rectangular matrix of dimensions 1 × m.
Now, it would be desirable to extrapolate the algorithm of square matrices composition to calculate products
of rectangular matrices
cij ≡ aikbkj
It is observed that this extrapolation of the matrix product to the case of rectangular matrices C = AB, can be
defined consistently only if the number of columns of A coincides with the number of rows of B.
AB = C if A ≡ Am×n and B ≡ Bn×d ⇒ Cm×d
48 CAPÍTULO 1. LINEAR OR VECTOR SPACES
In particular, the product of a column vector (m × 1 matrix) with a m × m matrix in the form xA cannot be
defined. Nevertheless, the product of the transpose of the vector (row vector) and the matrix A in the form e
xA
can be defined. In a similar fashion, the product Ae
x cannot be defined but Ax can. From these considerations
the quantities Ax and e
xA correspond to a new column vector and a new row vector respectively.
From the dimensions of the rectangular matrices we see that
Am×n ⇒ e
An×m and Bn×d ⇒ e
Bd×n
and the product AB is defined. However, their transposes can only be multiplied in the opposite order, i.e. in the
order e
B e
A. Indeed, it is easy to prove that, as in the case of square matrices, the transpose of a product is the
product of the transpose of each matrix in the product, but with the product in the opposite order. Applying this
property it can be seen that
]
(Ax) = e
x e
A ; ]
(e
xA) = e
Ax
where we have taken into account that the transpose of the transpose is the original matrix.
1.19. The eigenvalue problem
If T is a linear transformation on a vector space of finite dimension n, the simplest thing that the linear
transformation can do to a vector is to produce a “dilatation” or “contraction” on it, eventually changing the
“sense” of the “arrow” but keeping its “direction”. In algebraic words, certain vectors can be transformed by
T into a scalar multiple of itself. If x is a vector in H this operation is given by
Tx = λx (1.81)
a non-zero vector x such that Eq. (1.81) holds, is called an eigenvector of T, and the corresponding scalar λ is
called an eigenvalue of T. Each eigenvalue has one or more eigenvectors associated with it and to each eigenvector
corresponds a unique eigenvalue.
Let us assume for a moment that the set of eigenvalues for a given T is non-empty. For a given λ consider the
set M of all its eigenvectors together with the vector 0 (which is not an eigenvector), we denote this vectors as
x
(λ)
i . M is a linear subspace of H, we see it by taking an arbitrary linear combination of vectors in M
T

αix
(λ)
i

= αiT

x
(λ)
i

= αiλx
(λ)
i = λ

αix
(λ)
i

⇒
T

αix
(λ)
i

= λ

αix
(λ)
i

such that a linear combination is also an eigenvector with the same eigenvalue. Indeed, for Hilbert spaces it can
be shown that M is a closed vector subspace of H. As any vector space, M has many basis and if H is finite
dimensional, complete orthonormal sets are basis. The dimension of M is thus the maximum number of linearly
independent eigenvectors associated with λ. M is called the vector eigenspace generated by the eigenvalue λ. This
discussion induces the following
Definition 1.29 A given eigenvalue λ in Eq. (1.81) is called n−fold degenerate if n is the dimension of the
eigenspace M of H generated by λ. In other words, n is the maximum number of linearly independent eigenvectors
of λ. If n = 1 we say that λ is non-degenerate.
Even for non-degenerate eigenvalues we always have an infinite number of eigenvectors, for if x(λ) is an eigen-
vector, then αx(λ) is also an eigenvector for any scalar α. Eq. (1.81) can be written equivalently as
(T − λI) x = 0 (1.82)
1.19. THE EIGENVALUE PROBLEM 49
we return to the problem of the existence of eigenvalues, the operator T on C∞ given by
T {x1, x2, ...} = {0, x1, x2, ...}
is an operator on a Hilbert space that has no eigenvalues. We confront then the problem of characterizing the type
of operators that admit eigenvalues. In the finite dimensional case, we shall see that the theory of representations
and the fundamental theorem of algebra ensures the existence of eigenvalues for an arbitrary operator.
1.19.1. Matrix representative of the eigenvalue problem
The one to one correspondence between matrices and operators in the finite dimensional case permits to make
a matrix representation of the eigenvalue equation (1.81). Let T be the n × n matrix associated with the operator
T and x the column vector representative of x (an n × 1 matrix). Eq. (1.81) is written as
Tx = λx (1.83)
which is the eigenvalue equation associated with the matrix. The idea is trying to solve for the eigenvalues and
eigenvectors in a given representation. The values λ are in general complex. According with our previous discussion
the eigenvalue is the “dilatation”or “contraction” factor, if it is a negative real number it “inverts the sense of the
arrow”. Let us rewrite the eigenvalue equation as
(T − λ1) x = 0 (1.84)
for simplicity we shall use n = 3 but the arguments are valid for arbitrary finite dimensions. In three dimensions
the explicit form of (1.84) becomes
(T11 − λ) X1 + T12X2 + T13X3 = 0
T21X1 + (T22 − λ) X2 + T23X3 = 0
T31X1 + T32X2 + (T33 − λ) X3 = 0 (1.85)
This set of homogeneous equations for X1, X2, X3 has non trivial solution only if the determinant of the system
is null, therefore
|T − λ1| =
T11 − λ T12 T13
T21 T22 − λ T23
T31 T32 T33 − λ
= 0 (1.86)
this condition is known as the secular or characteristic equation of the matrix. The variables to be found are
the eigenvalues λ associated with the matrix. It worths saying that even if non-trivial solutions exist, the set of
homogeneous equations (1.85) do not give us definite values for all the components of the eigenvectors but only
for the quotient among these components. This can be understood either from algebraic or geometric arguments.
From the algebraic point of view, it is related with the fact that the product of the eigenvector x with any
scalar is also an eigenvector, this can be seen inmediately from (1.84)5. Geometrically, this implies that only the
“direction” of the eigenvector is determined but not its “length” neither its “sense”. This is particularly apparent
in three dimensions. Since T represents a linear transformation, it is clear that if T preserves the direction of x
i.e. Tx = λx it also preserves the “direction” of the vector αx for α arbitrary.
When the determinant (1.86) is expanded, we observe that the solution of the secular equation reduces to
finding the roots of a polynomial of n degree. Appealing to the fundamental theorem of algebra we always have
exactly n complex roots, some of them could be repeated so that we could have fewer than n distinct roots. In
5
Alternatively, this can be seen form the fact that the secular equation only has non-trivial solution when one or more of the
equations is linearly dependent with the others. In such a case there are more variables than equations and hence an infinite number
of solutions.
50 CAPÍTULO 1. LINEAR OR VECTOR SPACES
general we can construct no more than n linearly independent vectors xk each one associated with an eigenvalue
λk. By now, the set of eigenvalues are associated to a matrix, but in order to associate it to its corresponding
operator, we should be sure that the set of eigenvalues is the same for any representation of the operator i.e. that
all equivalent matrices have the same set of eigenvalues
Theorem 1.53 If two n × n matrices are equivalent i.e. T′ = STS−1 then both have the same set of eigenvalues.
In summary, the fundamental theorem of Algebra together with the intrinsic meaning of the set of eigenvalues,
solves the problem of the existence of eigenvalues for linear transformations on finite-dimensional vector spaces.
Definition 1.30 The set of eigenvalues of T is called its spectrum and is denoted by σ (T).
Theorem 1.54 If T is an arbitrary linear transformation on a finite dimensional complex vector space, the
spectrum of T constitute a non-empty finite subset of the complex plane. The number of elements in this subset
does not exceed the dimension n of the space.
Some other important theorems related with the set of eigenvalues are the following
Theorem 1.55 T is singular ⇔ 0 ∈ σ (T).
Theorem 1.56 If T is non-singular, then λ ∈ σ (T) ⇔ λ−1 ∈ σ T−1

More information about the spectral resolution of some types of operators in a Hilbert space will be given by
means of the spectral theorem. By now, we turn to the problem of the sets of eigenvectors and its relation with
the canonical problem of matrices.
1.19.2. Eigenvectors and the canonical problem of matrices
Since we can have many representations of a given operator by changing basis, many matrix representatives
can be constructed. It is natural to wonder whether it is posible to choose the basis in such a way that the matrix
representative is as simple as possible. In practice, the simplest matrices are diagonal matrices i.e. matrices for
which Tij = 0 for i 6= j. Thus, we are looking for a basis under which the matrix representative of a given operator
T is diagonal. Starting with a given basis {ui} we obtain a matrix representative of T (denoted by T), we wonder
whether there exists another basis {u′
i} for which the matrix representative T′ of T is diagonal. From Eqs. (1.54,
1.62) we see that T and T′ are related by a similarity transformation that also gives us the transformation among
the bases
u′
= Au ; T′
= e
A−1
T e
A (1.87)
We shall see that for finite dimensional matrices, the canonical problem of matrices is intimately related with
the structure of its eigenvectors. Let us consider the representation Xk of the eigenvectors of T with respect to the
original basis {ui}. We denote the i−th coordinate of the k−th eigenvector in the form Xik (with respect to the
original basis). We are able to settle an square arrangement with this eigenvectors, putting them aside as column
vectors. In three dimensions, such an arrangement has the form
X ≡ (X1 X2 X3) =


X11 X12 X13
X21 X22 X23
X31 X32 X33

 (1.88)
Eqs. (1.84) are written for each eigenvalue λk and its corresponding eigenvector Xk in the form
(T − λk1) Xk = 0 ⇒ TXk = λkXk no sum over k (1.89)
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 51
writing Eqs. (1.89) in components with respect to the basis {ui} we get (for n dimensions)
n
X
j=1
TijXjk = λkXik ⇒
n
X
j=1
TijXjk =
n
X
j=1
Xijδjkλk (1.90)
in the two previous equations there is no sum over the repeated index k. The Xjk element is the j−th component
of the Xk vector. Now, the quantity δjkλk can be associated with a diagonal matrix, in three dimensions this
matrix is written as
λ ≡


λ1 0 0
0 λ2 0
0 0 λ3

 (1.91)
in matrix form Eq. (1.90) reads
TX = Xλ
multiplying on left by X−1 we find
X−1
TX = λ (1.92)
it corresponds to a similarity transformation acting on T. Note that the matrix X built from the eigenvectors is
the transformation matrix (comparing with 1.87 we have X ≡ e
A). We see then that matrix T is diagonalized by
X by means of a similarity transformation and the elements of the diagonal correspond to the eigenvalues (λk
associated with the column vector Xk of the matrix X in Eq. 1.88). When there are some degenerate eigenvalues
i.e. some of them acquire the same value, it is not always possible to diagonalize the matrix T. It is because in
that case, the eigenvectors that form the matrix X are not necessarily linearly independent. If any given column
vector of the matrix is linearly dependent with the others, the determinant of X is zero and X−1 does not exist.
On the other hand, when diagonalization is possible, the determinant and the trace of T can be calculated
taking into account that such quantities are invariant under a similarity transformation, therefore
det T = det

X−1
TX

= det λ = λ1λ2 . . . λn (1.93)
TrT = Tr

X−1
TX

= Trλ = λ1 + λ2 + . . . + λn (1.94)
so that the determinant and the trace of a diagonalizable matrix are simply the product and sum of its eigenvalues
respectively.
In summary, a canonical form of a given matrix can be obtained as long as the eigenvectors of the matrix form
a basis, the question is now open for the conditions for the eigenvectors to form a basis, and this is part of the
program of the spectral theorem.
1.20. Normal operators and the spectral theorem
Let T be an operator on a finite-dimensional Hilbert space H. By theorem 1.54 the spectrum σ (T) is a non-
empty finite set of complex numbers with cardinality less than or equal to the dimension n of H. Let λ1, .., λm
be the set of distinct eigenvalues; let M1, .., Ṁm be their corresponding eigenspaces; and let P1, .., Pm be the
projections on these eigenspaces. The spectral theorem is the assertion that the following three statements are
equivalent to one another
I) The M′
is are pairwise orthogonal and H = M1 ⊕ ...⊕.Mm
II) The P′
i s are pairwise orthogonal, I =
Pm
i=1 Pi, and T =
Pm
i=1 λiPi.
III) T is normal.
52 CAPÍTULO 1. LINEAR OR VECTOR SPACES
The assertion I) means that any vector x ∈ H can be expressed uniquely in the form
x = x1 + .. + xm ; xi ∈ Mi ; (xi, xj) = 0 for i 6= j (1.95)
applying T on both sides and using linearity
Tx = Tx1 + .. + Txm = λ1x1 + .. + λmxm (1.96)
this shows the action of T on each element of H in an apparent pattern from the geometrical point of view. It is
convenient to write it in terms of projections on each Mi. Taking into account that Mj ⊆ M⊥
i for each i and for
every j 6= i we obtain from Eq. (1.95) that
Pix = xi
from which it follows
Ix = x = x1 + .. + xm = P1x + .. + Pmx
Ix = (P1 + .. + Pm) x ; ∀x ∈ H
therefore
I =
m
X
i=1
Pi (1.97)
and relation (1.96) gives
Tx = λ1x1 + .. + λmxm = λ1P1x + .. + λmPmx
Tx = (λ1P1 + .. + λmPm) x ; ∀x ∈ H
hence
T =
m
X
i=1
λiPi (1.98)
Eq. (1.98) is called the spectral resolution of the operator T. In this resolution it is to be understood that all the
λ′
is are distinct and that the P′
i s are non-zero projections which are pairwise orthogonal and satisfy condition
(1.97). It can be shown that the spectral resolution is unique when it exists.
Now, we look for the conditions that the operator must satisfies to be decomposed as Eq. (1.98). From Eq.
(1.98) we see that
T†
= λ∗
1P1 + . . . + λ∗
mPm (1.99)
and multiplying (1.98) with (1.99) and using the fact that the P′
i s are pairwise orthogonal we have
TT†
=
m
X
i=1
λiPi
! m
X
k=1
λ∗
kPk
!
=
m
X
i=1
m
X
k=1
λiλ∗
kPiPk =
m
X
i=1
m
X
k=1
λiλ∗
kP2
i δik
TT†
=
m
X
k=1
|λk|2
Pk (1.100)
and multiplying in the opposite order we obtain the same result
T†
T =
m
X
k=1
|λk|2
Pk (1.101)
from which we see that h
T, T†
i
= 0
and the operator must be normal. We have proved that I)→II)→III). To complete the proof we should show that
III)→I) i.e. that every normal operator T on H satisfies conditions I).
This task is accomplished by the following chain of theorems
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 53
Theorem 1.57 If T is normal, x is an eigenvector of T with eigenvalue λ ⇔ x is an eigenvector of T† with
eigenvalue λ∗.
Theorem 1.58 If T is normal the M′
i s are pairwise orthogonal
Theorem 1.59 If T is normal, each Mi reduces T.
Theorem 1.60 If T is normal, the M′
i s span H.
For most of applications theorem 1.58 is rewritten as
Theorem 1.61 If T is normal, two eigenvectors of T corresponding to different eigenvalues are orthogonal. In
particular this is valid for self-adjoint and unitary operators.
Assume that T = T†, since for a given eigenvector x there is a unique eigenvalue λ we see from theorem 1.57
that λ = λ∗ so the corresponding eigenvalues are real. Now assume for a normal operator T that σ (T) is a subset
of the real line, using the spectral resolution of T† Eq. (1.99) we find
T†
= λ∗
1P1 + . . . + λ∗
mPm = λ1P1 + . . . + λmPm = T
we have the following
Theorem 1.62 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1, .., λm}, then T is self-adjoint ⇔each λi is real.
It is important to emphasize that the hypothesis of real eigenvalues leads to the self-adjointness of the operator
only if normality is part of the hypothesis (because of the use of the spectral thoerem). It does not discard the
possibility of having non-normal operators with real spectrum, in that case such operators would not be self-
adjoint. In addition, it worths remembering that self-adjoint operators where constructed as the analogous of “the
real line subset” in the algebra of operators. So the fact that its eigenvalues are all real is a quite expected result.
An special type of self-adjoint operators are the positive operators for which
(x, Tx) ≥ 0 ∀x ∈ H (1.102)
applying the spectral resolution of T on xi ∈ Mi with xi 6= 0, we have
Txi =
m
X
k=1
λkPkxi =
m
X
k=1
λkxiδik = λixi
and using it in Eq. (1.102) we find
(xi, Txi) = (xi, λixi) = λi (xi, xi) ≥ 0 no sum over i
λi kxik2
≥ 0 ⇒ λi ≥ 0
on the other hand, by assuming that a normal operator T has a real non-negative spectrum we obtain
(x, Tx) = x,
n
X
i=1
λiPix
!
=
n
X
k=1
xk,
n
X
i=1
λixi
!
=
n
X
k=1
n
X
i=1
λi (xk, xi) =
n
X
k=1
n
X
i=1
λiδki kxkk2
(x, Tx) =
n
X
k=1
λk kxkk2
≥ 0
we see then that
54 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Theorem 1.63 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1, .., λm}, then T is positive ⇔ λi ≥ 0.
Now, for a normal operator T, a necessary and sufficient condition for T to be unitary is that T†T = I (in
finite dimension it is not necessary to show that TT† = I) using Eqs. (1.97, 1.100) the condition for unitarity is
T†
T = I ⇒
m
X
k=1
|λk|2
Pk = I ⇒
m
X
k=1
|λk|2
Pk =
m
X
k=1
Pk
multiplying by Pi and using the pairwise orthogonality of projectors
m
X
k=1
|λk|2
PkPi =
m
X
k=1
PkPi ⇒ |λi|2
P2
i = P2
i ⇒ |λi|2
Pi = Pi
so that |λi| = 1. This procedure also shows that if T is a normal operator in which |λi| = 1 for each i, then
TT† = I and T is unitary, then we have
Theorem 1.64 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1, .., λm}, then T is unitary ⇔ |λi| = 1 for each i.
Now, remembering that unitary operators where constructed as the analogous of “the unitary circle subset”
in the algebra of operators, the fact that its eigenvalues lie in the unitary circle of the complex plane is pretty
natural.
Now we are prepared to discuss the canonical problem for normal matrices. We denote ni the dimension of
each eigenspace Mi it is clear that
n1 + n2 + ... + nm = n
Mi contains ni linearly independent vectors

xi
1, .., xi
ni
	
that can be orthonormalized by a Gram Schmidt process
to say

ui
1, .., ui
ni
	
. If we do this for each Mi the set form by the union of these orthonormal sets
{u} ≡ ∪m
i=1

ui
1, .., ui
ni
	
is clearly an orthonormal set because all vectors corresponding with different M′
is are orthogonal according to
theorem 1.58. In addition, since the M′
i s span H according to theorem 1.60 this orthonormal set is complete and
hence a basis. Therefore, for any normal operator T of H we can always form an orthonormal complete set of
eigenvectors. If we use this orthonormal complete eigenvectors to form the matrix of diagonalization Eq. (1.88) we
see that the matrix obtained is a unitary matrix, it is clear that for this matrices the inverse always exists since
λi 6= 0 for each i and therefore the diagonalization can be carried out. Then we have the following
Theorem 1.65 The diagonalization of a normal matrix T can be performed by a similarity transformation of the
form T′ = UTU−1
where U is a unitary matrix.
This is of particular interest because it means that given a matrix representative of T in a basis consisting of
a complete orthonormal set, there exists another complete orthonormal set for which the matrix representative
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 55
acquires its canonical form. Further, it is easy to see that the canonical form of a normal matrix is given by




















λ1
...
λ1
λ2
...
λ2
...
λm
...
λm




















where the elements out of the diagonal are zero and each λi is repeated ni times (λi is ni−fold degenerate). It is
easily seen that the matrix representation of Pi in this orthonormal basis is
P1 =

1n1×n1 0
0 0

; P2 =


0n1×n1 0 0
0 1n2×n2 0
0 0 0

 ; Pm =

0 0
0 1nm×nm

and the matrix representation of the spectral decomposition becomes clear.
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert
spaces
The rigorous discussion of the infinite dimensional case for the spectral theorem is out of the scope of this
survey. We shall only speak qualitatively about the difficulties that arises when we go to infinite dimension. For
simplicity we assume that A is a self-adjoint operator, the spectral resolution is given by
A =
m
X
i=1
λiPi
since the eigenvalues are real we can order them in a natural way in the form λ1  λ2  ..  λm and we use the
P′
i s to define new projections
Pλ0 = 0
Pλ1 = P1
Pλ2 = P1 + P2
....
Pλm = P1 + ... + Pm = I
the spectral decomposition of the self-adjoint operator A can be written as
A = λ1P1 + λ2P2 + ... + λmPm
= λ1 (Pλ1 − Pλ0 ) + λ2 (Pλ2 − Pλ1 ) + ... + λm Pλm − Pλm−1

A =
m
X
i=1
λi Pλi
− Pλi−1

if we define
∆Pλi
≡ Pλi
− Pλi−1
56 CAPÍTULO 1. LINEAR OR VECTOR SPACES
we can rewrite the decomposition of A as
A =
m
X
i=1
λi∆Pλi
which suggest an integral representation
A =
Z
λ dPλ (1.103)
in this form, the spectral decomposition of a self-adjoint operator is valid for infinite dimensional Hilbert spaces.
For normal operators we have a similar pattern
N =
Z
λ dPλ (1.104)
The first problem to carry out this generalization is that an operator on H need not have eigenvalues at all.
In this general case the spectrum of T is defined as
σ (T) = {λ : T − λI is singular}
when H is finite dimensional, σ (T) consists entirely of eigenvalues. In the infinite dimensional case we only can
say that σ (T) is non-empty, closed and bounded. Once this difficulty is overcome we should give a precise meaning
to the integrals (1.103, 1.104) and prove the validity of those relations. We shall see later that an extension of the
spectral theorem in its present form to infinite dimensions is obtained by using the concept of observable.
It worths emphasizing that the existence of eigenvalues in the finite dimensional case came from the fundamen-
tal theorem of algebra, which in turn came from the fact that the characteristic equation of a finite dimensional
matrix is a polynomial equation. An extension to infinite dimension clearly does not lead to a polynomial equation.
1.21. The concept of “hyperbasis”
Suppose that the vector space that concerns us is V , which is a proper subspace of a bigger vector space W.
As any vector space, W has a basis {wi} that generates any vector in W by linear combinations. It is obvious that
any vector of V must be generated through linear combinations of {wi}. However, there are at least two reasons
for which {wi} is not a basis for V (a) at least one element of the set {wi} is not in V , and one of the conditions
for a given set S to be a basis of a given vector space V is that S ⊆ V . (b) given a basis {vi} of V we have that
{wi} and {vi} does not have in general the same cardinality, and we know that different bases must have the same
cardinality.
Let us see a simple example: let us use an orthonormal basis of R3 given by
u1 ≡
1
√
3
(1, 1, 1) ; u2 ≡
1
√
26
(4, −1, −3) ; u3 =
1
√
78
(−2, 7, −5)
to generate all vector of the XY plane. The coordinates of ui are written with respect to the ordinary cartesian
coordinates. Since these vectors generate R3 it is clear that they generate the XY plane which is a proper subset
of R3. Notwithstanding, none of the vectors ui lies in the XY plane, all the elements of this “hyperbasis” are
outside of the vector space we pretend to expand. Further, any basis of XY has two elements while our hyperbasis
has three elements. Therefore, the cardinality of the hyperbasis is higher than the dimension of the space that
we shall study. For our purposes however, what really matters is that any vector in XY can be generated as a
linear combination of {u1, u2, u3}. For instance, the vector x of the XY plane represented by (3, −2, 0) in ordinary
1.22. DEFINITION OF AN OBSERVABLE 57
cartesian coordinates, is represented in this hyperbasis as
x = (u1, x) u1 + (u2, x) u2 + (u3, x) u3
=

1
√
3
(1, 1, 1) · (3, −2, 0)

u1 +

1
√
26
(4, −1, −3) · (3, −2, 0)

u2 +
+

1
√
78
(−2, 7, −5) · (3, −2, 0)

u3
x =
1
√
3
u1 +
14
√
26
u2 −
20
√
78
u3
note that in this case an element of the plane is given by a triple with respect to the hyperbasis, in this case
x =

1
√
3
,
14
√
26
, −
20
√
78

in quantum mechanics we shall use a similar strategy but for orthogonal dimensions instead of dimensions. The
Hilbert space L2 that concerns us is of infinite countable orthogonal dimension, but we shall use frequently
orthogonal basis of a bigger space with infinite continuous orthogonal dimension. Therefore, we shall expand the
vectors of L2 in terms of orthogonal hyperbases {vx} with continuous cardinality. In general, the elements vx of
the bigger space will be outside of L2. However, as before a fourier expansion (instead of a linear combination)
will be possible with this hyperbasis.
Notice that for any cardinality of the orthogonal dimension of a Hilbert space, we see that the Fourier expansion
Eq. (1.27) is always a series. This is by virtue of theorem 1.18 that says that the non-zero fourier coefficients of
any vector are always countable, even if the complete orthonormal set belongs to a higher cardinality. However,
such a theorem is valid for complete orthonormal sets in which all the elements of the set lies in the space under
consideration. If we use a hyper orthonormal complete set the elements of this hyper orthogonal basis do not lie
on the space that we are expanding, thus theorem 1.18 does not necessarily hold. Consequently, when continuous
hyper orthonormal basis are used, we shall obtain integrals instead of series in our Fourier expansions. Does it
make any sense to replace series by integrals? it suffices to observe that it is in general easier to solve integrals in
a closed form than series in a closed form.
1.22. Definition of an observable
Measurements in Physics are always real numbers. In quantum mechanics, such measurements are related with
eigenvalues of some operators on a Hilber space. It is then natural to associate measurements with eigenvalues of
self-adjoint operators since their spectra are always real.
For any finite-dimensional Hilbert space it is always possible to form a complete orthonormal set with the
eigenvectors of a normal operator, and in particular with the eigenvectors of a self-adjoint operator. However, in
infinite dimensional Hilbert spaces this is not necessarily the case. Therefore, we establish the following
Definition 1.31 A given self-adjoint operator A on H is called an observable, if there exists a complete ortho-
normal set of eigenvectors of A.
The following sets of theorems are of central importance in quantum mechanics
Theorem 1.66 If two operators A and B commute and if x is an eigenvector of A, then Bx is also an eigenvector
of A with the same eigenvalue. If λ is non-degenerate x is also an eigenvector of B. If λ is n−fold degenerate, the
eigensubspace Mλ is invariant under B.
58 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Since x is an eigenvector of A we have
Ax = λx ⇒ BAx = λBx ⇒ ABx = λBx
where we have used the fact that A and B commutes, hence
A (Bx) = λ (Bx)
which proves that Bx is an eigenvector of A with eigenvalue λ. Observe that if λ is non-degenerate all its eigen-
vectors are “colinear” hence Bx must be colinear with x i.e. Bx = cx and x is also an eigenvector of B.
On the other hand, if λ is n−fold degenerate, we can only say that Bx lies in the n dimensional eigensubspace
Mλ of A. In other words, if x ∈ Mλ then Bx ∈ Mλ
Another way to express the previous theorem is
Theorem 1.67 If two operators A and B commute, every eigensubspace of A is invariant under B.
Of course, the roles of A and B can be interchanged.
Theorem 1.68 If two normal operators A and B commute, and if x1, x2 are two eigenvectors of A with different
eigenvalues, then (x1, Bx2) = 0.
By hypothesis we have
Ax1 = λ1x1 ; Ax2 = λ2x2
but from theorem 1.66 Bx2 is an eigenvector of A with eigenvalue λ2. Now from theorem 1.61 since λ1 6= λ2 then
Bx2 is orthogonal to x1 and the theorem is proved.
The previous theorems do not use the concept of observable6, but the following one does
Theorem 1.69 Let A and B be two observables in a Hilbert space H. Then A and B commute⇔one can construct
a complete orthonormal set in H with eigenvectors common to A and B.
Assume that A and B commute, we shall define the normalized eigenvectors of A as ui
n
Aui
n = λnui
n ; i = 1, .., gn
where gn is the degree of degeneration of λn. For n 6= n′ the eigenvectors are orthogonal and for n = n′ and i 6= i′
we can always orthonormalized the vectors in each eigensubspace of A, so that

ui
n, uj
k

= δnkδij
let us write H as a decomposition of the eigenspaces of A (taking into account that A is an observable)
H = M1 ⊕ M2 ⊕ M3 ⊕ ...
there are two cases. For each one dimensional Mk (each non-degenerate λk) all vectors in Mk are “colinear” and
they are also eigenvectors of B.
In the other case, gp  1 then Mp is gp dimensional. We can only say that Mp is invariant under B. Consider
the restriction of A and B to the subspace Mp. Since the vectors ui
p in Mp are eigenvectors of A, the restriction
of A to Mp has a matrix representative A
(p)
ij of the form
A
(p)
ij = vi
p, Avj
p

= vi
p, λpvj
p

= λp vi
p, vj
p

= λpδij
6
However, we assumed that the operators involved posses eigenvalues, and this fact cannot taken for granted in infinite dimensions.
1.23. COMPLETE SETS OF COMMUTING OBSERVABLES (C.S.C.O.) 59
thus the matrix representation of A(p) is λpI for any orthonormal set complete in Mp (not neccesarily the original).
Now let us see the matrix representative of the restriction B(p) of B on Mp, writing this representation in our
original orthonormal set
B
(p)
ij = ui
p, Buj
p

since B is a self-adjoint operator this matrix is self-adjoint, and according to theorem 1.65 they can always be
diagonalized by a unitary transformation, which in turn means that there exists an orthonormal set

vi
p
	
in Mp
for which the matrix representative of B(p) is diagonal, hence
B
(p)
ij = vi
p, Bvj
p

= B
(p)
i δij
which means that the new orthonormal set complete in Mp consists of eigenvectors of B
Bvi
p = B
(p)
i vi
p
and since Mp contains only eigenvectors of A, it is clear that

vi
p
	
is an orthonormal set complete in Mp that
are common eigenvectors of A and B. Proceeding in this way with all eigensubspaces of A with more than one
dimension, we obtain a complete orthonormal set in H in which the elements of the set are common eigenvectors
of A and B.
It is important to emphasize that for a given Mp the orthonormal set chosen a priori does not in general consist
of eigenvectors of B, but it is always possible to obtain another orthonormal set that are eigenvectors of B and
by definition they are also eigenvectors of A.
Now let us prove that if A and B are observables with a complete orthonormal set of common eigenvectors
then they commute. Let us denote the complete orthonormal set of common eigenvectors as ui
n,p then
ABui
n,p = bpAui
n,p = anbpui
n,p
BAui
n,p = anBui
n,p = anbpui
n,p
therefore
[A, B] ui
n,p = 0
since ui
n,p form a complete orthonormal set, then [A, B] = 0.
It is also very simple to show that if A and B are commuting observables with eigenvalues an and bp and with
common eigenvectors ui
n,p then
C = A + B
is also an observable with eigenvectors ui
n,p and eigenvalues cn,p = an + bp.
1.23. Complete sets of commuting observables (C.S.C.O.)
Consider an observable A and a complete orthonormal set

ui
n
	
of the Hilbert space that consists of eigenvectors
of A. If none of the eigenvalues of A are degenerate then the eigenvalues determine the eigenvectors in a unique
way (within multiplicative constant factors). All the eigensubspaces Mi are one-dimensional and the complete
orthonormal set is simply denoted by {un}. This means that there is only one complete orthonormal set (except
for multiplicative phase factors) associated with the eigenvectors of the observable A. We say that A constitutes
by itself a C.S.C.O.
On the other hand, if some eigenvalues of A are degenerate, specifying an is not enough to determine a
complete orthonormal set for H because any orthonormal set in the eigensubspace Mn can be part of such a
complete orthonormal set. Thus the complete orthonormal set determined by the eigenvectors of A is not unique
and it is not a C.S.C.O.
60 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Now we add a second observable B that commutes with A, and construct a complete orthonormal set common
to A and B. By definition, A and B constitutes a C.S.C.O. if the complete orthonormal set common to both is
unique (within constant phase factors for each of the vectors in the complete set). In other words, it means that
any pair of eigenvalues an, bp determines the associated common normalized eigenvector uniquely, except for a
phase factor.
In theorem 1.69 we constructed the complete orthonormal set common to A and B by solving the eigenvalue
equation of B within each eigensubspace defined by A. For A and B to constitute a C.S.C.O. it is necessary and
sufficient that within each Mn the gn eigenvalues of B be distinct7. In this case, since all eigenvectors vi
n in each
Mn have the same eigenvalue an of A, they will be distinguished by the gn distinct eigenvalues b
(n)
i associated with
these eigenvectors of B. Note that it is not necessary that the eigenvalues of B be non-degenerate, we can have
two (or more) equal eigenvalues of B associated with two (or more) distinct eigensubspaces Mn and Mk of A. We
only require not to have degeneration of the eigenvalues of B within a given eigensubspace Mn of A. Indeed, if B
were non-degenerate it would be a C.S.C.O. by itself.
On the other hand, if for at least one pair {an, bp} there exist two or more linearly independent eigenvectors
common to A and B they are not a C.S.C.O.. Let us add a third observable C that commutes with both A and
B, and proceeds as above. When to the pair {an, bp} corresponds only one eigenvector common to A and B, then
it is automatically an eigenvector of C as well. On the contrary, if the eigensubspace Mn,p is gn,p dimensional,
we can construct within it, an orthonormal set of eigenvectors of C. Proceeding in this way with each Mn,p we
can construct a complete orthonormal set with eigenvectors common to A, B, C. These three observables are a
C.S.C.O. if this complete orthonormal set is unique (except for multiplicative phase factors). Once again, if Mn,p
has the eigenvectors ui
n,p common to A and B this occurs if and only if all gn,p eigenvalues of C denoted as c
(n,p)
k are
distinct. As before, C can be degenerate, but as long as degenerate eigenvalues are not repeated within a single
eigenspace Mn,p of A and B. Therefore, a given triple of eigenvalues {an, bp, ck} of A, B, C has a unique common
eigenvector within a multiplicative factor. If two or more linearly independent eigenvectors common to A, B, C
can be constructed for a given set {an, bp, ck}, we can add a fourth observable D that commute with those three
operators and so on.
Definition 1.32 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.)
if (i) All observables commute pairwise, (ii) specifying the set of eigenvalues {an, bp, ck, ..} of the observables
determines a unique (within phase factors) complete orthonormal set of eigenvectors common to all the observables.
An equivalent form is the following
Definition 1.33 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.)
if there is a unique complete orthonormal set (within phase factors) of common eigenvectors.
It is obvious that if a given set is a C.S.C.O. we can add any observable that commutes with the observables
of the set and the new set is also a C.S.C.O. However, for most of our purposes we shall be interested in “minimal
C.S.C.O.” in the sense that by removing any observable of the set, the new set is not complete.
If a given set {A1, .., An} of observables is a C.S.C.O., an eigenvector associated with a set {ak1 , .., akn } determines
a unique common normal eigenvector (within a phase factor) so it is natural to denote the vector as uak1
,ak2
,akn
.
We shall see later that in quantum mechanics a global phase has no Physical information. Therefore, all normal
vectors associated with {ak1 , .., akn } have the same Physical information, this fact enhance the qualification of
“unique” for these vectors, although they are not unique from the mathematical point of view.
7
If Mn is one dimensional then an eigenvector of A in Mn is automatically an eigenvector of B and it is clearly uniquely determined,
except for multiplicative factors. Only the case in which Mn has more than one dimension is non-trivial.
1.24. SOME TERMINOLOGY CONCERNING QUANTUM MECHANICS 61
1.24. Some terminology concerning quantum mechanics
We have defined linear combinations as finite sums. A basis in a vector space is thus a set of linearly indepen-
dent vectors for which any vector of the space can be written as a finite sum of elements of the basis (multiplied
by the appropiate scalars). Notably, bases always exist even in an infinite-dimensional vector space. However, in
practice it is not easy to find a basis in an infinite dimensional Hilbert space. In this case, it is more usual to
utilize complete orthonormal sets, they make a work similar to basis in the sense that they generate any vector,
but the difference is that complete orthonormal sets expand a vector in a series (Fourier expansion) while bases
do it in finite sums.
In quantum mechanics we call a basis to mean a complete orthonormal set, and the series expansion
is usually call a linear combination. Since we never use basis in the mathematical sense, there is no confusion
with this terminology. Self-adjoint operators are usually called hermitian operators. The conjugate space H∗
of H is usually call the dual space of H. The vectors in our Hilbert space are called kets, while the correponding
elements in the dual space (the functionals) are called bras.
In addition the Hilbert space we work with, is a separable space so that its dimension is countable (countably
infinite). We shall resort however to some hyperbases which are of continuous cardinality, the elements of these
hyperbases do not belong to our Hilbert space. Consequently, the elements of the hyperbasis will not be physical
states, but we shall call them continuous basis. Nevertheless, they will be very useful for practical calculations.
In addition there will be a change of notation to facilitate the mathematical calculations, it is called Dirac
notation
1.25. The Hilbert Space L2
We shall see later that the information of a quantum particle is described by a function of the space and time
denoted as ψ (r, t) and called the wave function. The quantity, |ψ (r, t)|2
dx dy dz will be interpreted as the
probability of finding at time t, the particle in a volume dx dy dz. Since the particle must be somewhere in the
space, we must demand that the integral over the whole volume must be equal to unity
Z
dV |ψ (r, t)|2
= 1
the integration extends over all space. However, in certain cases we could assume that the particle is in a given
confined volume and the integral will be restricted to such a volume.
The discussion above leads to the fact that the space of Physical states of one particle should be described by
a square-integrable wave function. The state space is then the Hilbert space L2 of the square-integrable functions
in a given volume. For a system of several particles we will have a space with similar features, but by now we will
concentrate on the space that describes a single particle.
For several reasons we cannot specified in general the state space of a particle. First of all, several physical
considerations can lead us to the fact that the particl is confined to a certain bounded volume. For instance,
in one dimension it is not the same the space of functions that are square integrable in the whole real line, as
(say) the space of functions that are square integrable in a bounded interval. In other words, different regions of
square integrability leads us to different L2 spaces. On the other hand, it is usual to demand as well as square
integrability, that the functions accomplish additional features of regularity. For example, to be defined all along
the interval, or to be continuous, derivable, etc. The specific conditions depend on the particular context, and
they are required to define the state space completely.
For example, it has no physical meaning to have a function that is discontinuous at a given point since no
experiment can measure a real phenomenon at scales below certain threshold. We could then be tempted to say
that we must demand the functions to be continuous. However, this is not necessarily the case since some non-
physical functions could help us to figure out what is happening. Let us take some familiar examples in classical
mechanics, it is usual in electrostatics to assume the presence of a surface charge, which leads to a discontinuity
62 CAPÍTULO 1. LINEAR OR VECTOR SPACES
in the electric field, in the real world a charge is distributed in a very thin but finite layer and the discontinuity
is replaced by a very slopy curve. Indeed, a surface charge is equivalent to an infinite volume density, but we
have seen that this assumption provides a simple picture of many electrostatic phenomena though it is not a real
physical state. Classical waves represented by a single plane wave in optics are other good examples, since it is
not possible to have a real wave being totally monochromatic (a physical state is always a superposition of several
plane waves), but many of the wave phenomena are easier to study with these non physical states, and indeed
many real physical phenomena such as the laws of geometric optics are predicted by using them.
In summary, depending on our purposes (and attitudes) we could demand to have only physical states or
to decide to study some non-physical ones that are obtain when some physical parameters are settle at extreme
values. Quantum mechanics is not the exception for this strategy, and our assumptions on the functions to work
with, affects the definition of the Hilbert space of states that we should use as a framework.
Hence, given the volume V in which the particle can stay, we say that our space of states is a subspace of the
Hilbert space L2 of the square integrable functions in the volume V . We denote by ̥ the subspace of states in
which ̥ ⊆ L2. For this subspace to be a Hilbert space, it must be closed (for completeness to be maintained).
1.25.1. The wave function space ̥
According to the discussion above, we only can say that our wave function space that describe our physical
states is a closed subspace of L2 for a volume determined by our physical conditions. What really matters is to be
sure whether the additional conditions imposed to our functions keeps ̥ as a closed vector space. For instance,
if we assume continuity and/or derivability, it is easy to show that a finite linear combination preserves these
conditions. Less evident is to ensure that a series preserves these conditions (for the subspace to be closed in L2),
but we are not be concern with this problem here, neither we shall discuss the aspects concerning the completeness
of L2. We then limite ourselves to determine the vector space character of L2. Let ψ1, ψ2 ∈ L2, we show that
ψ (r) = λ1ψ1 (r) + λ2ψ2 (r)
is a square integrable function. For this, we expand |ψ (r)|2
|ψ (r)|2
= |λ1|2
|ψ1 (r)|2
+ |λ2|2
|ψ2 (r)|2
+ λ∗
1λ2ψ∗
1 (r) ψ2 (r) + λ1λ∗
2ψ1 (r) ψ∗
2 (r)
now for the last two terms we have
|λ∗
1λ2ψ∗
1 (r) ψ2 (r)| = |λ1λ∗
2ψ1 (r) ψ∗
2 (r)| ≤ |λ1| |λ2|
h
|ψ1 (r)|2
+ |ψ2 (r)|2
i
hence
|ψ (r)|2
≤ |λ1|2
|ψ1 (r)|2
+ |λ2|2
|ψ2 (r)|2
+ 2 |λ1| |λ2|
h
|ψ1 (r)|2
+ |ψ2 (r)|2
i
and the integral of each of the functions on the right-hand side converges. Then the integral
Z
|ψ (r)|2
dV
converges. So ψ is a square integrable function.
The scalar product will be defined as
(ϕ, ψ) =
Z
dV ϕ∗
(r) ψ (r)
it can be shown that this integral always converges if ϕ and ψ belong to L2. We should check that this definition
accomplishes the properties of an inner product, the properties arise directly from the definition
(ϕ, λ1ψ1 + λ2ψ2) = λ1 (ϕ, ψ1) + λ2 (ϕ, ψ2) ; (λ1ϕ1 + λ2ϕ2, ψ) = λ∗
1 (ϕ1, ψ) + λ∗
2 (ϕ2, ψ)
(ϕ, ψ) = (ψ, ϕ)∗
; (ψ, ψ) ≡ kψk2
≥ 0 and (ψ, ψ) = 0 ⇔ ψ = 0
1.26. DISCRETE ORTHONORMAL BASIS 63
let us mention some important linear oprators on functions ψ (r) ∈ ̥.
The parity opeartor defined as
Πψ (x, y, z) = ψ (−x, −y, −z)
the product operator X defined as
Xψ (x, y, z) = xψ (x, y, z)
and the differentiation operator with respect to x denoted as Dx
Dxψ (x, y, z) =
∂ψ (x, y, z)
∂x
it is important to notice that the operators X and Dx acting on a function ψ (r) ∈ ̥, can transform it into a
function that is not square integrable. Thus it is not an operator of ̥ into ̥ nor onto ̥. However, the non-physical
states obtained are frequently useful for practical calculations.
The commutator of the product and differentiation operator is of central importance in quantum mechanics
[X, Dx] ψ (r) =

x
∂
∂x
−
∂
∂x
x

ψ (r) = x
∂
∂x
ψ (r) −
∂
∂x
[xψ (r)]
= x
∂
∂x
ψ (r) − x
∂
∂x
ψ (r) − ψ (r)
[X, Dx] ψ (r) = −ψ (r) ∀ψ (r) ∈ ̥
therefore
[X, Dx] = −I (1.105)
1.26. Discrete orthonormal basis
The Hilbert space L2 (and thus ̥) has a countable infinite dimension, so that any authentic basis of ̥ must
be infinite but discrete. A discrete orthonormal basis {ui (r)} with ui (r) ∈ ̥ should follows the rules given in
section 1.9.1. Thus orthonormality is characterized by
(ui, uj) =
Z
d3
r u∗
i (r) uj (r) = δij
the expansion of any wave function (vector) of this space is given by the Fourier expansion described by Eq. (1.27)
ψ (r) =
X
i
ciui (r) ; ci = (ui, ψ) =
Z
d3
r u∗
i (r) ψ (r) (1.106)
using the terminology for finite dimensional spaces we call the series a linear combination and ci are the components
or coordinates, which correspond to the Fourier coefficients. Such coordinates provide the representation of ψ (r)
in the basis {ui (r)}. It is very important to emphasize that the expansion of a given ψ (r) must be unique for
{ui} to be a basis, in this case this is guranteen by the form of the Fourier coefficients.
Now if the Fourier expansion of two wave functions are
ϕ (r) =
X
j
bjuj (r) ; ψ (r) =
X
i
ciui (r)
The scalar product and the norm can be expressed in terms of the components or coordinates of the vectors
according with Eqs. (1.65, 1.66)
(ϕ, ψ) =
X
i
b∗
i ci ; (ψ, ψ) =
X
i
|ci|2
(1.107)
and the matrix representation of an operator T in a given orthonormal basis {ui} is obtained from Eq. (1.69)
Tij ≡ (ui, Tuj)
64 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.26.1. Función delta de Dirac
Como veremos a continuación la función delta de Dirac es un excelente instrumento para expresar el hecho
de que un conjunto ortonormal dado sea completo. También es útil para convertir densidades puntuales, lineales
y superficiales, en densidades volumétricas equivalentes. Es importante enfatizar que la función delta de Dirac
mas que una función es una distribución. En el lenguaje del análisis funcional, es una uno-forma que actúa en
espacios vectoriales de funciones, asignándole a cada elemento del espacio, un número real de la siguiente forma:
Sea V el espacio vectorial de las funciones definidas en el dominio (b, c) con ciertas propiedades de continuidad,
derivabilidad, integrabilidad, etc. La distribución delta de Dirac es un mapeo que asigna a cada elemento f (x) de
V un número real con el siguiente algoritmo8
Z c
b
f (x) δ (x − a) dx =

f (a) si a ∈ (b, c)
0 si a /
∈ [b, c]
mencionaremos incidentalmente que con esta distribución es posible escribir una densidad de carga (o masa)
puntual (ubicada en r0) como una densidad volumétrica equivalente
ρ (r) = qδ r′
− r0

(1.108)
esta densidad reproduce adecuadamente tanto la carga total como el potencial y el campo que genera, una vez
que se hagan las integrales apropiadas.
Hay varias sucesiones de distribuciones que convergen a la función Delta de Dirac, una de las mas utilizadas
es la sucesión definida por
fn (x − a) =
n
√
π
e−n2(x−a)2
(1.109)
se puede demostrar que al tomar el lı́mite cuando n → ∞ se reproduce la definición y todas las propiedades básicas
de la distribución delta de Dirac. Nótese que todas las distribuciones gaussianas contenidas en esta sucesión tienen
área unidad y están centradas en a. De otra parte, a medida que aumenta n las campanas gaussianas se vuelven
más agudas y más altas a fin de conservar el área, para valores n suficientemente altos, el área se concentra en
una vecindad cada vez más pequeña alrededor de a. En el lı́mite cuando n → ∞, toda el área se concentra en un
intervalo arbitrariamente pequeño alrededor de a.
Algunas propiedades básicas son las siguientes:
1.
R ∞
−∞ δ (x − a) dx = 1
2.
R ∞
−∞ f (x) ∇δ (r − r0) dV = − ∇f|r=r0
3. δ (ax) = 1
|a| δ (x)
4. δ (r − r0) = δ (r0 − r)
5. xδ (x) = 0
6. δ x2 − e2

= 1
2|e| [δ (x + e) + δ (x − e)]
Vale enfatizar que debido a su naturaleza de distribución, la función delta de Dirac no tiene sentido por sı́ sola,
sino únicamente dentro de una integral. Por ejemplo cuando decimos que δ (ax) = 1
|a| δ (x), no estamos hablando
8
Es usual definir la “función” delta de Dirac como δ (r) =

∞ si r = 0
0 si r 6= 0
y
R
δ (x) dx = 1. Esta definición se basa en una
concepción errónea de la distribución delta de Dirac como una función. A pesar de ello, hablaremos de ahora en adelante de la función
delta de Dirac para estar acorde con la literatura.
1.27. CLOSURE RELATIONS 65
de una coincidencia numérica entre ambos miembros, sino de una identidad que se debe aplicar al espacio vectorial
de funciones en que estemos trabajando, es decir
Z c
b
f (x) δ (ax) dx =
Z c
b
f (x)
1
|a|
δ (x) dx ∀ f (x) ∈ V y ∀ a ∈ R
Estrictamente, el mapeo también se puede hacer sobre los números complejos con propiedades análogas. En este
mismo espı́ritu, es necesario aclarar que la densidad volumétrica equivalente de una carga puntual (y todas las
densidades equivalentes que se pueden formar con la delta) es realmente una distribución. Por ejemplo, la densidad
descrita por (1.108), solo tiene realmente sentido dentro de integrales que generan la carga total, el potencial o el
campo. Las densidades ordinarias son funciones, pero las densidades equivalentes son distribuciones. En sı́ntesis, lo
que se construye con la densidad volumétrica equivalente es una distribución que me produzca el mapeo adecuado
para reproducir la carga total, el potencial y el campo.
En más de una dimensión la delta se convierte simplemente en productos de deltas unidimensionales, la
propiedad
R
δ(n) (x) dnx = 1, aplicada a n dimensiones, nos dice que la delta no es adimensional, sus dimensiones
son de x−n.
De momento, el uso que le daremos a la delta estará relacionado con la completez del sistema orthonormal
que usemos. Nótese que en dimension finita la completez se comprueba simplemente asegurándonos de tener igual
número de vectores linealmente independientes que la dimensión del espacio. En espacios de dimension infinita
en cambio podrı́amos tener un conjunto infinito contable que no fuera completo y que se vuelve completo al
agregarle otro conjunto finito o infinito contable, pues en tal caso la cardinalidad no cambia. En dimensión infinita
un conjunto ortonormal puede tener la cardinalidad de la dimensión ortogonal del espacio y sin embargo no ser
completo. Es por esto que la prueba de completez es particularmente importante.
1.27. Closure relations
Naturalmente, para que todo vector arbitrario ψ (r) de ̥ sea expandible en los vectores unitarios linealmente
independientes {ui (r)}, es necesario que el conjunto que define la base sea completo, la condición de completez
puede obtenerse reemplazando los coeficientes de Fourier cn en la expansión de ψ (r)
ψ (r) =
X
n
cnun (r) =
X
n
(un, ψ) un (r) =
X
n
Z B
A
u∗
n r′

ψ r′

un (r) d3
r′
ψ (r) =
Z B
A
ψ r′


X
n
u∗
n r′

un (r)
#
d3
r′
donde la integral con lı́mites A y B significa una integral triple de volumen. Por otro lado
ψ (r) =
Z B
A
ψ r′

δ r − r′

d3
r′
Igualando las dos últimas expresiones, y teniendo en cuenta que ψ (r′) es arbitraria se obtiene
X
n
u∗
n r′

un (r) = δ r − r′

(1.110)
retrocediendo en nuestros pasos vemos que la relación anterior nos garantiza que cualquier función arbitraria
dentro del espacio se puede expandir en términos del conjunto {un (r)}. A su vez vemos que la expansion para
una base ordenada dada {un (r)} es única, lo cual se obtiene gracias a la independencia lineal del conjunto. Por
tanto a la Ec. (1.110), se le conoce como relación de completez.
We shall study several complete sets that consequently accomplish property (1.110). The proof of completeness
of these sets is however out of the scope of this manuscript.
66 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.28. Introduction of hyperbases
In the case of discrete basis each element ui (r) is square integrable and thus belong to L2 and in general to ̥
as well. As explained before, it is sometimes convenient to use some hyperbases in which the elements of the basis
do not belong to either L2 or ̥, but in terms of which a function in ̥ can be expanded, the hyperbasis {u (k, r)}
will have in general a continuous cardinality with k denoting the continuous index that labels each vector in the
hyperbasis. According to our previous discussions the Fourier expansions made with this hyperbasis are not series
but integrals, these integrals will be called continuous linear combinations.
1.29. Closure relation with hyperbases
In the hyperbasis {u (k, r)}, k is a continuous index defined in a given interval [c, d]. Such an index makes
the role of the index n in discrete bases. We shall see that a consistent way of expressing orthonormality for this
continuous basis is9
(uk, uk′ ) =
Z B
A
u∗
(k, r) u k′
, r

d3
r = δ k − k′

(1.111)
we show it by reproducing the results obtained with discrete bases. Expanding an arbitrary function ψ (r) of our
Hilbert space as a continuous linear combination of the basis gives
ψ (r) =
Z d
c
c (k) u (k, r) dk
then we have
(uk′ , ψ) =

uk′ ,
Z d
c
c (k) u (k, r) dk

=
Z d
c
c (k) (uk′ , uk) dk
=
Z d
c
c (k) δ k − k′

dk = c k′

from which the fourier coefficients of the continuous expansion are evaluated as
c k′

= (uk′ , ψ) (1.112)
when the Fourier coefficients are associated with continuous linear combinations (integrals) they are usually called
Fourier transforms. In this case, a vector is represented as a continuous set of coordinates or components, where
the components or coordinates are precisely the Fourier transforms.
Therefore, in terms of the inner product, the calculation of the Fourier coefficients in a continuous basis
(Fourier transforms) given by Eq. (1.112) coincides with the calculation of them with discrete bases Eq. (1.106).
Eq. (1.112) in turn guarantees that the expansion for a given ordered continuous bases is unique10. Those facts
in turn depends strongly on our definition of orthonormality in the continuous regime Eq. (1.111) showing the
consistency of such a definition. After all, we should remember that hyperbases are constructed as useful tools
and not as physical states, in that sense we should not expect a “truly orthonormality relation” between them11.
9
From now on we shall say continuous bases, on the understanding that they are indeed hyperbases.
10
Remember that for a given set of vectors to constitute a basis, it is important not only to be able to expand any vector with
the elements of the set, it is also necessary for the expansion of each vector to be unique. In normal basis (not hyperbasis) this is
guaranteed by the linear independence, in our continuous set it is guranteed by our definition of orthonormality in such a set.
11
It is clear for example that with r = r′
the “orthonormality” relation diverge, so it is not a normalization in the mathematical
sense.
1.30. INNER PRODUCT AND NORM IN TERMS OF A HYPERBASIS 67
Let us see the closure relation
ψ (r) =
Z d
c
c (k) u (k, r) dk =
Z d
c
(uk, ψ) u (k, r) dk
ψ (r) =
Z d
c
Z B
A
u∗
k, r′

ψ r′

d3
r′

u (k, r) dk
ψ (r) =
Z B
A
Z d
c
u∗
k, r′

u (k, r) dk

ψ r′

d3
r′
on the other hand
ψ (r) =
Z B
A
δ r − r′

ψ r′

d3
r′
from which we find Z d
c
u∗
k, r′

u (k, r) dk = δ r − r′

(1.113)
which defines us the closure relation for a continuous basis {u (k, r)}.
From the discussion above, the closure relations for discrete or continuous basis can be interpreted as “re-
presentations” of the Dirac delta function. Similar situation occurs with the orthonormality relation but only for
continuous bases.
It worths emphasizing at this point that a given representation of the delta in a given space cannot be
applied to another space. For example, it is possible to have a r−dimensional vector space of functions V1 with
a basis {vn (r)}, that defines a closure relation
Pr
n=1 v∗
n (r′) vn (r) = δ1 (r − r′), let us think about another r + k
dimensional vector space denoted by V2 and such that V2 ⊃ V1, such that a basis {um} of V2 includes the previous
basis plus other linearly independent vectors; the closure relation is:
Pr+k
n=1 u∗
n (r′) un (r) = δ2 (r − r′). What is the
difference between δ1 (r − r′) and δ2 (r − r′)?, the answer lies in the distribution nature of the badly called Dirac
delta function; the fundamental property of this distribution tells us that for all functions ψ (r′) that belongs
to V1 we have that
ψ (r) =
Z B
A
ψ r′


X
n
v∗
n r′

vn (r)
#
d3
r′
=
Z B
A
ψ r′

δ1 r − r′

d3
r′
however, if the function ψ (r) does not belong to V1 but it belongs to V2 then δ1 (r − r′) is not an adequate
distribution to represent this function. This is a general property of the distributions, since they are defined solely
by means of the way in which they map the functions of a specific vector space into the scalars. A representation
of the Dirac delta (and in general of any distribution) is linked to a very specific vector space of functions.
1.30. Inner product and norm in terms of the components of a vector in a
hyperbases
Let us take two vectors ϕ and ψ that belong to ̥. Both can be expressed as continuous linear combinations
of a continuous basis {uk}
ψ (r) =
Z d
c
dk u (k, r) c (k) ; ϕ (r) =
Z d
c
dk′
u k′
, r

b k′

now the idea is to write the scalar product of them in terms of the continuous set of components of each vector
i.e. in terms of their Fourier transforms c (k) and b (k′). The scalar product is
(ϕ, ψ) =
Z B
A
d3
r ϕ∗
(r) ψ (r) =
Z d
c
dk′
Z d
c
dk b∗
k′

c (k)
Z B
A
d3
r u∗
k′
, r

u (k, r)
68 CAPÍTULO 1. LINEAR OR VECTOR SPACES
now using the orthonormality relation Eq. (1.111) we have
(ϕ, ψ) =
Z B
A
d3
r ϕ∗
(r) ψ (r) =
Z d
c
dk′
Z d
c
dk b∗
k′

c (k) δ k − k′

(ϕ, ψ) =
Z d
c
dk b∗
(k) c (k) (1.114)
the norm is obtained simply by taking ϕ = ψ then
(ψ, ψ) = kψk2
=
Z d
c
dk |c (k)|2
(1.115)
Eqs. (1.114, 1.115) are clearly the continuous analogs of Eq. (1.107) for discrete basis.
In summary, the basic relations obtained in discrete bases (inner products, norms, fourier coefficients, ortho-
normality, completeness etc.) possses the same structure in continuous bases but with the following replacements
i(discrete) ↔ k(continuous) ,
X
i
↔
Z
dk , δij ↔ δ k − k′

1.31. Some specific continuous bases
1.31.1. Plane waves
We shall use a continuous basis represented by the set
n
zeip·r/~
o
; z ≡

1
2π~
3/2
where p is the continuous index that labels the different vectors of the basis. Indeed, p represents three continuous
indices px, py, pz. By now ~ is simply a mathematical constant, but it will become highly relevant in Physics. We
consider the space of square integrable functions over the whole space, all integrals are undestood to be triple
integrals. The continuous linear combination of a given square integrable function is given by
ψ (r) =

1
2π~
3/2 Z ∞
−∞
d3
p ψ̄ (p) eip·r/~
it is clear that

ψ̄ (p)
	
provides the continuous set of coordinates of the vector ψ (r) under our continuous basis.
They are thus the Fourier transforms of ψ (r) with respect to the basis of plane waves. It is useful to define
vp (r) ≡ zeip·r/~
(1.116)
from which the fourier transforms can be calculated by Eq. (1.112)
c (k) = (uk, ψ) ⇒ ψ̄ (p) = (vp, ψ) =

1
2π~
3/2 Z ∞
−∞
d3
r e−ip·r/~
ψ (r)
the basic relation in Fourier analysis
1
(2π)3
Z ∞
−∞
d3
k eik·u
= δ3
(u) (1.117)
can be used by assigning k → zp and u → (r − r′) to show that
Z ∞
−∞
d3
p v∗
p r′

vp (r) =
1
(2π~)3
Z ∞
−∞
d3
p ei p
~
(r−r′)
= δ3
r − r′

(1.118)
1.31. SOME SPECIFIC CONTINUOUS BASES 69
by comparing it with Eq. (1.113), we see that (1.118) expresses the completeness relation for the continuous basis
{vp} in the space of functions that are square-integrable in the whole physical space. The orthonormality relation
can also be obtained from the property (1.117) but with the assignments k → zr and u → p − p′
vp, vp′

=
1
(2π~)3
Z ∞
−∞
d3
r e−i r
~
(p−p′)
= δ3
p′
− p

= δ3
p − p′

(1.119)
by using p = p′ in Eq. (1.119) it is clear that kvpk2
= (vp, vp) is divergent. Thus, the plane waves are not square-
integrable in the whole space. Therefore, the elements of this continuous basis do not belong to the Hilbert space
under study.
1.31.2. “Delta functions”
We shall use a continuous basis of “highly improper” functions defined by
ξr0 (r) ≡ δ (r − r0) (1.120)
{ξr0 (r)} represents the set of delta functions centered at each of the points r0 of the whole space. These functions
are not square-integrable so {ξr0 (r)} /
∈ ̥. Nevertheless, the following relations are valid for functions that belong
to ̥
ψ (r) =
Z
d3
r0 ψ (r0) δ (r − r0)
ψ (r0) =
Z
d3
r ψ (r) δ (r0 − r)
rewritten them appropiately we have
ψ (r) =
Z
d3
r0 ψ (r0) ξr0 (r) (1.121)
ψ (r0) =
Z
d3
r ξ∗
r0
(r) ψ (r) = (ξr0 , ψ) (1.122)
Eq. (1.121) gives ψ (r) ∈ ̥ as a continuous linear combination of the set {ξr0 }, where ψ (r0) are the fourier
transforms. On the other hand, (1.122) indicates that the fourier transforms are evaluated as usual.
By using the properties of the Dirac delta function, it is possible to prove that the set {ξr0 } accomplishes
orthonormality and completeness relations

ξr0 , ξr′
0

=
Z
d3
r δ (r − r0) δ r − r′
0

= δ r0 − r′
0

and Z
d3
r0 ξ∗
r0
r′

ξr0 (r) =
Z
d3
r0 δ r′
− r0

δ (r − r0) = δ r − r′

note that the non-physical functions that constitute a continuous basis can usually be seen as limits in which one
or more parameters of a physically realizable state are taken at extreme (non-physical) values.
As an example the Dirac function can be taken as the limit of gaussians given by Eq. (1.109)
fn (x − a) =
n
√
π
e−n2(x−a)2
for each value of n these functions are square integrable, continuous, and derivable, they could describe a physical
system. Notwithstanding, by taking n → ∞, the functions are no longer square-integrable and lose all properties
of well-behavior.
Concerning plane waves, physical states (in both classical and quantum mechanics) consists of a superposition of
plane waves with a finite width spectrum of frecuencies ∆ν, by taking the limit ∆ν → 0 we obtain a monochromatic
(non-physical) wave, corresponding to a single plane wave.
70 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.32. Tensor products of vector spaces, definition and properties
Let V1 and V2 be two vector spaces of dimension n1 and n2. Vectors and operators on each of them will be
denoted by labels (1) and (2) respectively.
Definition 1.34 The vector space V is called the tensor product of V1 and V2
V ≡ V1 ⊗ V2
if there is associated with each pair of vectors x (1) ∈ V1 and y (2) ∈ V2 a vector in V denoted by x (1) ⊗ y (2) and
called the tensor product of x (1) and y (2), and in which this correspondence satisfies the following conditions:
(a) It is linear with respect to multiplication by a scalar
[αx (1)] ⊗ y (2) = α [x (1) ⊗ y (2)] ; x (1) ⊗ [βy (2)] = β [x (1) ⊗ y (2)] (1.123)
(b) It is distributive with respect to addition

x (1) + x′
(1)

⊗ y (2) = x (1) ⊗ y (2) + x′
(1) ⊗ y (2)
x (1) ⊗

y (2) + y′
(2)

= x (1) ⊗ y (2) + x (1) ⊗ y′
(2) (1.124)
(c) When a basis is chosen in each space, say {ui (1)} in V1 and {vj (2)} in V2, the set of vectors ui (1) ⊗ vj (2)
constitutes a basis in V . If n1 and n2 are finite, the dimension of the tensor product space V is n1n2.
An arbitrary couple of vectors x (1), y (2) can be written in terms of the bases {ui (1)} and {vj (2)} respectively,
in the form
x (1) =
X
i
aiui (1) ; y (2) =
X
j
bjvj (2)
Using Eqs. (1.123, 1.124) we see that the expansion of the tensor product is given by
x (1) ⊗ y (2) =
X
i
X
j
aibjui (1) ⊗ vj (2)
so that the components of the tensor product of two vectors are the products of the components of the two vectors of
the product. It is clear that the tensor product is commutative i.e. V1 ⊗V2 = V2 ⊗V1 and x (1)⊗y (2) = y (2)⊗x (1)
On the other hand, it is important to emphasize that there exist in V some vectors that cannot be written
as tensor products of a vector in V1 with a vector in V2. Nevertheless, since {ui (1) ⊗ vj (2)} is a basis in V any
vector in V can be expanded in it
ψ =
X
i
X
j
cijui (1) ⊗ vj (2) (1.125)
in other words, given a set of n1n2 coefficients of the form cij it is not always possible to write them as products
of the form aibj of n1 numbers ai and n2 numbers bj, we cannot find always a couple of vectors in V1 and V2 such
that ψ = x (1) ⊗ y (2).
1.32.1. Scalar products in tensor product spaces
If there are inner products defined in the spaces V1 and V2 we can define an inner product in the tensor product
space V . For a couple of vectors in V of the form x (1) ⊗ y (2) the inner product can be written as
x′
(1) ⊗ y′
(2) , x (1) ⊗ y (2)

= x′
(1) , x (1)

(1)
y′
(2) , y (2)

(2)
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 71
where the symbols (, )(1) and (, )(2) denote the inner product of each of the spaces of the product. From this, we can
see that if the bases {ui (1)} and {vj (2)} are orthonormal in V1 and V2 respectively, then the basis {ui (1) ⊗ vj (2)}
also is
(ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = (ui (1) , uk (1))(1) (vj (2) , vm (2))(2) = δikδjm
Now, for an arbitrary vector in V , we use the expansion (1.125) and the basic properties of the inner product
(ψ, φ) =


X
i
X
j
cijui (1) ⊗ vj (2) ,
X
k
X
m
bkmuk (1) ⊗ vm (2)


=
X
i,j
c∗
ij
X
k,m
bkm (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) =
X
i,j
c∗
ij
X
k,m
bkmδikδjm
(ψ, φ) =
X
i,j
c∗
ijbij
it is easy to show that with these definitions the new product accomplishes the axioms of an inner product.
1.32.2. Tensor product of operators
Consider a linear transformation A (1) defined in V1, we associate with it a linear operator e
A (1) acting on V
as follows: when e
A (1) is applied to a tensor of the type x (1) ⊗ y (2) we define
e
A (1) [x (1) ⊗ y (2)] = [A (1) x (1)] ⊗ y (2)
when the operator is applied to an arbitrary vector in V , this definition is easily extended because of the linearity
of the transformation
e
A (1) ψ = e
A (1)
X
i
X
j
cijui (1) ⊗ vj (2) =
X
i
X
j
cij
e
A (1) [ui (1) ⊗ vj (2)]
e
A (1) ψ =
X
i
X
j
cij [A (1) ui (1)] ⊗ vj (2) (1.126)
the extension e
B (2) of a linear transformation in V2 is obtained in a similar way
e
B (2) ψ =
X
i
X
j
cijui (1) ⊗ [B (2) vj (2)]
finally, if we consider two operators A (1) , B (2) defined in V1 and V2 respectively, we can define their tensor
product A (1) ⊗ B (2) as
[A (1) ⊗ B (2)] ψ =
X
i
X
j
cij [A (1) ui (1)] ⊗ [B (2) vj (2)] (1.127)
it is easy to show that A (1) ⊗ B (2) is also a linear operator. From Eqs. (1.126, 1.127) we can realize that the
extension of the operator A (1) on V1 to an operator e
A (1) on V can be seen as the tensor product of A (1) with
the identity operator I (2) on V2. A similar situation occurs with the extension e
B (2)
e
A (1) = A (1) ⊗ I (2) ; e
B (2) = I (1) ⊗ B (2) (1.128)
Now let us put the operators A (1)⊗B (2) and e
A (1) e
B (2) to act on an arbitrary element of a basis {ui (1) ⊗ vj (2)}
of V
[A (1) ⊗ B (2)] ui (1) ⊗ vj (2) = [A (1) ui (1)] ⊗ [B (2) vj (2)]
h
e
A (1) e
B (2)
i
ui (1) ⊗ vj (2) = e
A (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
72 CAPÍTULO 1. LINEAR OR VECTOR SPACES
therefore, the tensor product A (1) ⊗ B (2) coincides with the ordinary product of two operators e
A (1) and e
B (2)
on V
A (1) ⊗ B (2) = e
A (1) e
B (2)
additionally, it can be shown that operators of the form e
A (1) and e
B (2) commute in V . To see it, we put their
products in both orders to act on an arbitrary vector of a basis {ui (1) ⊗ vj (2)} of V
h
e
A (1) e
B (2)
i
ui (1) ⊗ vj (2) = e
A (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
h
e
B (2) e
A (1)
i
ui (1) ⊗ vj (2) = e
B (2) {[A (1) ui (1)] ⊗ vj (2)} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
therefore we have h
e
A (1) , e
B (2)
i
= 0 or A (1) ⊗ B (2) = B (2) ⊗ A (1)
an important special case of linear operators are the projectors, as any other linear operator, the projector in V is
the tensor product of the projectors in V1 and V2. Let M1 and N1 be the range and null space of a projector in
V1 and M2, N2 the range and null space of a projector in V2
V1 = M1 ⊕ N1 ; x (1) = xM (1) + xN (1) ; xM (1) ∈ M1, xN (1) ∈ N1 ; P1 (x (1)) = xM (1)
V2 = M2 ⊕ N2 ; y (2) = yM (2) + yN (2) ; yM (2) ∈ M2, yN (2) ∈ N2 ; P2 (y (2)) = yM (2)
(P1 ⊗ P2) (x (1) ⊗ y (2)) = [P1x (1)] ⊗ [P2y (2)] = xM (1) ⊗ yM (2)
for an arbitrary vector we have
(P1 ⊗ P2) ψ = (P1 ⊗ P2)
X
i
X
j
cijui (1) ⊗ vj (2) =
X
i
X
j
cij [P1ui (1)] ⊗ [P2vj (2)]
(P1 ⊗ P2) ψ =
X
i
X
j
cijui,M (1) ⊗ vj,M (2)
finally, as in the case of vectors, there exists some operators on V that cannot be written as tensor products of
the form A (1) ⊗ B (2).
1.32.3. The eigenvalue problem in tensor product spaces
Let us assume that we have solved the eigenvalue problem for an operator A (1) of V1. We want to seek for
information concerning the eigenvalue problem for the extension of this operator to the tensor product space V .
For simplicity, we shall assume a discrete spectrum
A (1) xi
n (1) = anxi
n (1) ; i = 1, 2, . . . , gn ; xi
n (1) ∈ V1
where gn is the degeneration associated with an. We want to solve the eigenvalue problem for the extension of
this operator in V = V1 ⊗ V2
e
A (1) ψ = λψ ; ψ ∈ V1 ⊗ V2
from the definition of such an extension, we see that a vector of the form xi
n (1) ⊗ y (2) for any y (2) ∈ V2 is an
eigenvector of e
A (1) with eigenvalue an
e
A (1)

xi
n (1) ⊗ y (2)

=

A (1) xi
n (1)

⊗ y (2) = anxi
n (1) ⊗ y (2) ⇒
e
A (1)

xi
n (1) ⊗ y (2)

= an

xi
n (1) ⊗ y (2)
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 73
it is natural to ask whether any eigenvector of e
A (1) can be generated in this way. We shall see that it is true if
A (1) is an observable in V1. Assuming it, the set of orthonormal eigenvectors

xi
n (1)
	
forms a basis in V1. If we
now take an orthonormal basis {ym (2)} in V2, then the set of vectors

ψi,m
n
	
≡

xi
n (1) ⊗ ym (2)
	
forms an orthonormal basis in V . It is clear that the set
n
ψi,m
n
o
consists of eigenvectors of e
A (1) with eigenvalues
an, and since they are a basis, a complete orthonormal set of eigenvectors of e
A (1) have been generated with the
procedure explained above. This in turn means that if A (1) is an observable in V1, its extension e
A (1) is also an
observable in V . Further, the spectrum of e
A (1) coincides with the spectrum of A (1). Notwithstanding, it worths
to say that if N2 is the dimension of V2, if an is gn−fold degenerate in V1, it will be gn ·N2−degenerate in V . This is
because for a given eigenvector xi
n (1) in V1, there are N2 eigenvectors ψi,m
n ≡ xi
n (1) ⊗ ym (2) since m = 1, . . . , N2.
We know that each eigenvalue an of A (1) in V1 defines an eigensubspace V1,an in V1 with gn dimension. The
corresponding eigensubspace generated by an in V is a N2 · gn subspace Van . The projector onto V1,an is written
by
V1 = V1,an ⊕ V ⊥
1,an
; x (1) = xan (1) + x⊥
an
(1) ; xan (1) ∈ V1,an , x⊥
an
(1) ∈ V ⊥
1,an
Pan
1 (x (1)) = xan (1)
and its extension to V is defined as
e
Pan
1 ≡ Pan
1 ⊗ I2 ; e
Pan
1 ψi,m
n ≡ e
Pan
1

xi
n (1) ⊗ ym (2)

=

Pan
1 xi
n (1)

⊗ ym (2)
e
Pan
1 ψi,m
n = xan (1) ⊗ ym (2)
Now assume that we have a sum of operators of both spaces
C = e
A (1) + e
B (2)
where A (1) and B (2) are observables in their corresponding spaces, with the following eigenvalues and eigenvectors
A (1) xi
n (1) = anxi
n (1) ; i = 1, 2, . . . , gn ; xi
n (1) ∈ V1
B (2) yk
m (2) = bmyk
m (2) ; k = 1, 2, . . . , hm ; yk
m (2) ∈ V2
we have seen that e
A (1) and e
B (2) commute, so they should have a commom basis of eigenvectors in V . This basis
is precisely, the tensor product of their eigenvectors
e
A (1)
h
xi
n (1) ⊗ yk
m (2)
i
= an
h
xi
n (1) ⊗ yk
m (2)
i
e
B (2)
h
xi
n (1) ⊗ yk
m (2)
i
= bm
h
xi
n (1) ⊗ yk
m (2)
i
and they are also eigenvectors of C = e
A (1) + e
B (2)
h
e
A (1) + e
B (2)
i h
xi
n (1) ⊗ yk
m (2)
i
= (an + bm)
h
xi
n (1) ⊗ yk
m (2)
i
C
h
xi
n (1) ⊗ yk
m (2)
i
= cnm
h
xi
n (1) ⊗ yk
m (2)
i
; cnm = an + bm
So that if C = e
A (1) + e
B (2) the eigenvalues of C are the sums of the eigenvalues of e
A (1) and e
B (2). Besides, we
can form a basis of eigenvectors of C by taking the tensor product of the basis of A (1) and B (2).
It is important to emphasize that even if an and bm are non-degenerate, it is posible that cnm be dege-
nerate. Assume that an and bm are non-degenerate, and for a given cnm let us define all the sets of pairs
74 CAPÍTULO 1. LINEAR OR VECTOR SPACES
{(nj, mj) : j = 1, . . . , q} such that anj + bmj = cnm. In that case, the eigenvalue cnm is q−fold degenerate, and
every eigenvector corresponding to this eigenvalue can be written as
q
X
j=1
cj

xnj (1) ⊗ ymj (2)

in this case there are eigenvectors of C that are not tensor products.
1.32.4. Complete sets of commuting observables in tensor product spaces
For simplicity assume that A (1) forms a C.S.C.O. by itself in V1, while {B (2) , C (2)} constitute a C.S.C.O.
in V2. We shall show that by gathering the operators of the C.S.C.O. in V1 with the operators of C.S.C.O. in V2,
we form a C.S.C.O. in V with their corresponding extensions.
Since A (1) is a C.S.C.O. in V1, all its eigenvalues are non-degenerate in V1
A (1) xn (1) = anx (1)
the ket x (1) is then unique within a constant factor. In V2 the set of two operators {B (2) , C (2)} defines commom
eigenvectors {ymp (2)} that are unique in V2 within constant factors
B (2) ymp (2) = bmymp (2) ; C (2) ymp (2) = cpymp (2)
In V , the eigenvalues are N2−fold degenerate. Similarly, there are N1 linearly independent eigenvectors of B (2)
and C (2) associated with two given eigenvalues of the form (bm, cp). However, the eigenvectors that are common
to the three commuting observables e
A (1) , e
B (2) , e
C (2) are unique within constant factors
e
A (1) [xn (1) ⊗ ymp (2)] = an [x (1) ⊗ ymp (2)]
e
B (2) [xn (1) ⊗ ymp (2)] = bm [x (1) ⊗ ymp (2)]
e
C (2) [xn (1) ⊗ ymp (2)] = cp [x (1) ⊗ ymp (2)]
since {xn (1)} and {ymp (2)} were bases in V1 and V2, we see that {xn (1) ⊗ ymp (2)} is a basis in V constituted
by commom eigenvectors of the three operators. Thus the set
n
e
A (1) , e
B (2) , e
C (2)
o
is a C.S.C.O. in V .
1.33. Restrictions of an operator to a subspace
It is useful in many applications to be able to restrict an operator to a certain subspace Vq of a given vector
space V . Let us assume
V = V1 ⊕ . . . ⊕ Vq ⊕ . . .
x = x1 + . . . + xq + . . . ; xi ∈ Vi
Projectors, which are the natural operators to “restrict” a vector by extracting the components that are ortho-
normal to a given subspace, will be also the natural operators to rectrict operators. Let Pq be the projector onto
a subspace Vq. A priori, we could think in defining a restriction by “restricting the vector” in which the operator
will act on. This is done by substracting all components orthogonal to the subspace Vq by applying a projection,
and then let the operator A act on this projection so we have
A = APq ⇒ Ax = APqx = Axq
1.34. FUNCTIONS OF OPERATORS 75
in this case we have restricted the domain of A appropriately, but once the operator A is applied, the image could
be outside of the subspace too. Hence, the projector must be applied again after the application of A in order to
restrict the image appropriately. We then define the restriction b
A of the operator A to the subspace Vq as
b
Aq ≡ PqA = PqAPq (1.129)
so that both the domain and the range are restricted to Vq. It can be easily checked that the matrix representation
of b
Aq is reduced to a submatrix in the Vq space. Let qk be the dimension of Vq. Let us use an ordered basis such
that the first qk terms expand Vq. Using such a basis we have

b
Aq

ij
=

ui, b
Aquj

= (ui, PqAPquj) = (Pqui, APquj)
(Pqui, APquj) =

(ui, Auj) if i, j ≤ qk
0 if i  qk and/or j  qk
observe that the submatrix associated with i, j ≤ qk (i.e. associated with the Vq subspace), remains the same with
respect to the non-restricted matrix. But the elements outside of such a submatrix are zeros, showing that the
new operator only acts in Vq.
It is important to emphasize that the restriction b
Aq of an operator A differs from A itself, because we are
changing the mapping. In the special case in which the subspace Vq is invariant under A, the range of A is
automatically restricted into Vq when the domain is restricted to Vq. Thus in that case the restriction can be
defined with only one projector operator
b
Aq ≡ APq
so when Vq is invariant under A the mapping described by b
Aq is identical to the mapping described by A when
such mappings are restricted to the domain Vq.
1.34. Functions of operators
Let A be an arbitrary operator. The operator An with n being a non-negative integer is easily defined as
A0
≡ I , An
= AA · · · A (n times)
similarly for negative integers a consistent definition is
A−n
≡ A−1
n
with AA−1
= A−1
A = I
it is useful to define functions of operators. Assume that a function F can be expanded in certain domain in the
following way
F (z) =
∞
X
n=0
fnzn
(1.130)
by definition, the function F (A) of the operator A corresponds to an expansion of the form (1.130) with the same
coefficients fn
F (A) =
∞
X
n=0
fnAn
(1.131)
for instance, the function eA of the operator A reads
eA
=
∞
X
n=0
An
n!
= I + A +
A2
2!
+
A3
3!
+ . . .
76 CAPÍTULO 1. LINEAR OR VECTOR SPACES
the convergence of series of the type (1.131) depends on the eigenvalues of A and the radius of convergence of the
function (1.130). We shall not treat this topic in detail.
If F (z) is a real function the coefficients fn are real. On the other hand, if A is hermitian then F (A) also is,
as can be seen from (1.131). Owing to the analogy between real numbers and hermitian operators this relation is
quite expected. Now, assume that xi,k is an eigenvector of A with eigenvalue ai we then have
Axi,k = aixi,k ⇒ An
xi,k = an
i xi,k
and applying the eigenvector in Eq. (1.131) we find
F (A) xi,k =
∞
X
n=0
fnan
i xi,k = xi,k
∞
X
n=0
fnan
i
F (A) xi,k = F (ai) xi,k
so that if xi,k is an eigenvector of A with eigenvalue ai, then xi,k is also eigenvector of F (A) with eigenvalue
F (ai).
On the other hand, if the operator is diagonalizable (this is the case for observables), we can find a basis in
which the matrix representative of A is diagonal with the eigenvalues ai in the diagonal. In such a basis, the
operator F (A) has also a diagonal representation with elements F (ai) in the diagonal. For example let σz be an
operator that in certain basis has the matrix representation
σz =

1 0
0 −1

in the same basis we have
eσz
=

e1 0
0 e−1

=

e 0
0 1/e

if A and B do not commute, we have that in general the operators F (A) and F (B) do not commute either. For
instance
eA
eB
=
∞
X
n=0
An
n!
∞
X
m=0
Bm
m!
=
∞
X
n=0
∞
X
m=0
An
n!
Bm
m!
(1.132)
eB
eA
=
∞
X
m=0
Bm
m!
∞
X
n=0
An
n!
=
∞
X
m=0
∞
X
n=0
Bm
m!
An
n!
(1.133)
eA+B
=
∞
X
n=0
(A + B)n
n!
(1.134)
these three expressions are in general different from each other unless [A, B] = 0. We see by direct inspection
of Eqs. (1.132, 1.133, 1.134) that if A and B commute, then F (A) and F (B) also do. Notice that when A, B
commute they can be diagonalized simultaneously and so F (A) and F (B), which is another way to see that if
[A, B] = 0 then [F (A) , F (B)] = 0.
1.34.1. Some commutators involving functions of operators
Theorem 1.70 Suppose we have two operators A and B such that B commutes with their commutator, that is
[B, C] = 0 ; C ≡ [A, B] (1.135)
if F (B) is a function of the operator B then we have
[A, F (B)] = [A, B] F′
(B) (1.136)
1.35. DIFFERENTIATION OF OPERATORS 77
where F′ (B) is the derivative of F (B) “with respect to B” defined as
F (B) =
∞
X
n=0
fnBn
⇒ F′
(B) ≡
∞
X
n=0
nfnBn−1
(1.137)
Proof: The commutator [A, F (B)] is given by
[A, F (B)] =

A,
∞
X
n=0
fnBn
#
=
∞
X
n=0
fn [A, Bn
] (1.138)
we show by induction that
[A, Bn
] = [A, B] nBn−1
(1.139)
for n = 0 we have Bn = I and both sides clearly vanish. Now let us assume that it works for n and show that it
is satisfied by n + 1. Applying Eq. (1.41), and taking into account Eqs. (1.139, 1.135) we have

A, Bn+1

= [A, BBn
] = [A, B] Bn
+ B [A, Bn
] = [A, B] BBn−1
+ B [A, B] nBn−1
= CBBn−1
+ BCnBn−1
= CBn
+ nCBBn−1
= C (n + 1) Bn

A, Bn+1

= [A, B] (n + 1) Bn
which shows the validity of Eq. (1.139). Replacing Eq. (1.139) in Eq. (1.138), we find
[A, F (B)] = [A, B]
∞
X
n=0
fnnBn−1
= [A, B] F′
(B)
Corollary 1.71 It is straightforward to show that if both operators commute with their commutator we see that
equations
[A, F (B)] = [A, B] F′
(B) ; [G (A) , B] = [A, B] G′
(B) (1.140)
are satisfied simultaneously. A very important case in Physics occurs when [A, B] = αI. In that case, we have
[A, B] = αI ⇒ [A, F (B)] = αF′
(B) ; [G (A) , B] = αG′
(B) (1.141)
1.35. Differentiation of operators
Let A (z) an operator that depends on the arbitrary variable z. We define the derivative of A (z) with respect
to z as
dA
dz
= lı́m
∆z→0
A (z + ∆z) − A (z)
∆z
(1.142)
provided that this limit exists. Operating A on an arbitrary vector x and using a basis {ui} independent of z, we
have
A (z) x = A (z) xiui = xiA (z) ui = xiujAji (z) (1.143)
since dA/dz is another operator, it makes sense to talk about its matrix representation
dA (z)
dz
x =
dA (z)
dz
xiui = xi
dA (z)
dz
ui = xiuj

dA (z)
dz

ji
(1.144)
Applying the derivative on both extremes of Eq. (1.143), and taking into account that the basis {ui} is independent
of z, we have
d
dz
A (z) x = xiuj
dAji (z)
dz
(1.145)
78 CAPÍTULO 1. LINEAR OR VECTOR SPACES
comparing Eqs. (1.144, 1.145) we obtain 
dA (z)
dz

ji
=
dAji (z)
dz
so the matrix representative of the derivative of A is obtained by taking the derivative of each of its elements12.
The differentiation rules are similar to the ones in ordinary calculus
d
dz
(F + G) =
dF
dz
+
dG
dz
;
d
dz
(FG) =
dF
dt
G + F
dG
dt
(1.146)
except that care must be taken with the order of appearance for the operators involved. Let us examine the second
of this equations, applying FG to an arbitrary vector x and using a basis {ui} we have
(FG) x = xiuj (FG)ji
taking the derivative on both sides we have

d (FG)
dz

ji
=
d
dz
(FG)ji =
d
dz
[FjkGki] =

d
dz
Fjk

Gki + Fjk

d
dz
Gki

=

dF
dz

jk
Gki + Fjk

dG
dz

ki
#
in matrix form we see that
d (FG)
dz
=
dF
dz
G + F
dG
dz
since there is a one-to-one isomorphism from the operators onto the matrices, we see that this relation is also valid
for the operators.
1.35.1. Some useful formulas
Applying the derivation rules we can develop some identities for functions of operators. Let us calculate the
derivative of the operator eAt. By definition we have
eAt
=
∞
X
n=0
(At)n
n!
differentiating the series term by term we have
d
dt
eAt
=
∞
X
n=0
ntn−1 An
n!
= 0 +
∞
X
n=1
ntn−1 An
n!
= A
∞
X
n=1
(At)n−1
(n − 1)!
d
dt
eAt
= A
 ∞
X
k=0
(At)k
k!
#
=
 ∞
X
k=0
(At)k
k!
#
A
where we have used the assignment k = n − 1. The series in the brackets is eAt once again, so we have
d
dt
eAt
= AeAt
= eAt
A (1.147)
12
Care must be taken to distinguish between the derivative in Eq. (1.137) and the derivative in Eq. (1.142). In Eq. (1.137) the
derivative is taken with respect to B as the “variable of derivation”. On the other hand, in Eq. (1.142) the variable to derive with, is
a parameter z from which our matrix depend on.
1.36. STATE SPACE AND DIRAC NOTATION 79
in this case eAt and A commutes because only one operator is involved. Suppose that we want to differentiate
eAteBt. Applying Eqs. (1.146, 1.147) we have
d
dt

eAt
eBt

=
d eAt

dt
eBt
+ eAt d eBt

dt
= AeAt
eBt
+ eAt
BeBt
the operator A can pass over eAt if desired but not over eBt unless that A and B commute. Similarly, B can pass
over eBt but not over eAt.
However, even if a single operator appears we should be careful with the order sometimes. For instance, if A (t)
is an arbitrary function of time then
d
dt
eA(t)
6=
dA
dt
eA(t)
(1.148)
it could be checked that A (t) and dA (t) /dt must commute with each other for the equality to be valid.
Consider again two operators that commute with their commutator, we shall show that
[A, [A, B]] = [B, [A, B]] = 0 ⇒ eA
eB
= eA+B
e
1
2
[A,B]
(Glauber′
s formula) (1.149)
let define F (t) with t real as
F (t) ≡ eAt
eBt
;
dF (t)
dt
= AeAt
eBt
+ eAt
BeBt
= A eAt
eBt

+ eAt
Be−At
eAt
eBt

dF (t)
dt
=

A + eAt
Be−At

F (t) (1.150)
since A, B commute with their commutator, we can apply Eq. (1.140), so that

eAt
, B

= t [A, B] eAt
⇒ eAt
B = BeAt
+ t [A, B] eAt
⇒ eAt
Be−At
= B + t [A, B]
substituting this expression in Eq. (1.150) we get
dF (t)
dt
= {A + B + t [A, B]} F (t) (1.151)
by hypothesis, A+B commutes with [A, B], so that the differential equation (1.151) can be integrated as if A+B
and [A, B] were numbers
F (t) = F (0) e(A+B)t+ 1
2
[A,B]t2
setting t = 0 we see that F (0) = I, thus we obtain
F (t) = e(A+B)t+ 1
2
[A,B]t2
setting t = 1 and taking into account again that A + B commutes with [A, B], we obtain (1.149). It is necessary
to emphasize that this equation is valid only if A and B commutes with [A, B].
1.36. State space and Dirac notation
We have defined the space of Physical states as the one constituted by functions ψ (r) square-integrable
in a given volume. The space with these characteristics is denoted by L2, but since in general with add some
requirements to these functions, we actually work in a subspace ̥ ⊆ L2. On the other hand, we have seen that
several bases can be constructed to represent those functions. Therefore, the Physical system will be described
by either the functions ψ (r) or by the sete of its coordinates in a given representation. When the representation
80 CAPÍTULO 1. LINEAR OR VECTOR SPACES
is discrete we have a numerable set of coordinates (Fourier coefficients) while in the case of continuous bases,
the set of coordinates is continuous as well (Fourier transforms). In particular, the continuous basis denoted as
ξr0 (r) shows that the function ψ (r) can be considered as a coordiante system as well, because in this basis, each
coordinate is defined as ψ (r0) i.e. the value of ψ at each fixed point r0 of the volume13.
We have now a situation similar to the one obtained in R3, we can define a vector by a triple of coordinates in
any basis defined by a set of coordinate axes. However, vectors in R3 can be defined geometrically (intrinsically),
and its algebra can be performed in a coordinate-free form.
In the same way, we wish to define our state vector in a coordinate free (or intrinsic) way. The abstract space
of state vectors of a particle is denoted as Er which should be isometrically isomorphic with ̥. We should also
define the notation and algebra on the Er space.
Though we initially start with Er as identical to ̥, we shall see that it permits a generalization of the formalism
when the states in ̥do not contain all the Physical information of the system, as is the case when spin degrees of
freedom are introduced in the formalism. Hence, the algebra that we shall develop now will be valid when these
generalizations are carried out. In developing this algebra we are going to present the Dirac notation which is
useful in practical calculations
1.37. Dirac notation
We are going to establish a one-to-one correspondence between the states of ̥ and the states of Er, though
the latter will be extended later. Thus to every square-integrable function ψ (r) in ̥ we make to correspond an
abstract vector in Er in the form
ψ (r) ↔ |ψi
an abstract vector in the notation |ψi will be called a ket. Notice that no r−dependence appears in |ψi. Indeed,
ψ (r) is interpreted in this framework as a representation of |ψi in which each ψ (r) is a coordinate in the basis
given by ξr (r′). Therefore, r plays the role of index (three continuous indices) for the particular basis used.
The space of states of a particle in one dimension is denoted as Ex, while in three dimensions is Er.
1.37.1. Elements of the dual or conjugate space E∗
r
In section 1.9.2 we defined a one-to-one correspondence between vectors (kets) of a Hilbert space and functionals
(bras) in the conjugate (dual) space in the following way (see Eqs. 1.29, 1.30)
|ψi ↔ f|ψi ; f|ψi (|ϕi) ≡ (|ψi , |ϕi)
Dirac notation designates f|ψi as hψ| which is called a bra. The correspondence above and the inner product will
be written as
|ψi ∈ Er ↔ hψ| ∈ E∗
r ; hψ| (|ϕi) ≡ (|ψi , |ϕi)
it induces a natural notation for the inner product
((|ψi , |ϕi)) ≡ hψ| ϕi
this is also called a bracket (i.e. the union of a bra with a ket). Let us now write the properties developed in
section 1.9.2 Eq. (1.31), with this new notation
fα|ψi+β|ϕi = α∗
f|ψi + β∗
f|ϕi
α |ψi + β |ϕi ∈ Er ↔ α∗
hψ| + β∗
hϕ| ∈ E∗
r
13
Notice that this is a simple way of defining an scalar field. A scalar field is completely delimited by defining its value at each point
of the space in which the field is defined (at a given time). In this case the number of coordinates is cleraly the number of points in
our space.
1.37. DIRAC NOTATION 81
which is consistent with the properties of the inner product
(α |ψi + β |ϕi , |χi) = (α∗
hψ| + β∗
hϕ|) |χi ⇒
hαψ + βϕ| χi = α∗
hψ| χi + β∗
hϕ| χi
since the functionals (bras) are linear by definition, a linear combination of kets gives
f|ψi (α |ϕi + β |χi) ≡ αf|ψi (|ϕi) + βf|ψi (|χi)
in Dirac notation it reads
hψ| αϕ + βχi = α hψ| ϕi + β hψ| χi
from these facts it is clear that for any scalar α
|αψi = α |ψi ; hαψ| = α∗
hψ| (1.152)
now since
(|ψi , |ϕi) = (|ϕi , |ψi)∗
⇒
hψ| ϕi = hϕ| ψi∗
1.37.2. The correspondence between bras and kets with hyperbases
We have seen that hyperbases are sets of elements from which any element of the space can be expanded despite
those elements do not belong to the space under study. On the other, hand we have seen that the correspondence
between vectors and functionals (kets and bras) is one-to-one and onto. However, when hyperbases are used we
shall see that some linear functionals (bras) can be well-defined while there is not a well-defined corresponding
vector (ket)
Assume for example that we have a ket in ̥ given by a sufficiently regular function ξ
(ε)
x0 (x) such that
Z ∞
−∞
dx ξ(ε)
x0
(x) = 1
with the form of a peak of height ∼ 1/ε and width ∼ ε centered at x = x0. If ε 6= 0 then
ξ
(ε)
x0
E
∈ Ex. Let
D
ξ
(ε)
x0
∈ E∗
x
be its associated bra. The idea is to have a function that conveeges to the Dirac delta function when ε → 0. For
each |ψi ∈ Ex we have that
hξ(ε)
x0
|ψi =

ξ(ε)
x0
, ψ

=
Z ∞
−∞
dx ξ(ε)
x0
(x) ψ (x) (1.153)
now we let ε to approach zero, and we find that
lı́m
ε→0
ξ(ε)
x0
/
∈ ̥x
since the square of its norm tend to 1/ε and diverges. Nevertheless, in the limit ε → 0 the expression (1.153) is
still well-defined, so that
D
ξ
(ε)
x0
is still associated with a functional that can be applied to any element of the state
space, we shall denote this bra as hξx0 | and this functional associates with each vector |ψi ∈ Ex the value ψ (x0)
taken on by the associated wave function in ̥x at the point x0
lı́m
ε→0
D
ξ(ε)
x0
= hξx0 | ∈ E∗
x if |ψi ∈ Ex ⇒ hξx0 | ψi = ψ (x0)
then the bra hξx0 | ∈ E∗
x exists but there is not a ket associated with it in the hyperbasis.
82 CAPÍTULO 1. LINEAR OR VECTOR SPACES
This dissymetry is associated with the use of a hyperbasis. The elements of the hyperbasis do not belong
to ̥x and so has no elements associated in Ex either. However, the inner product of it with any element of ̥x
is well-defined and it permits to associate a bra belonging to E∗
x. Indeed, by the theory of Hilbert spaces the
corresponding ket must exists, what really happens is that we cannot construct it as an element of our hyperbasis,
this is perfectly undestandable since such elements are out of our Hilbert space.
Notice that we have indeed extended the concept of inner product and we have applied it to elements out of
our Hilbert space. For practical reasons it is usual to associate the bras hξx0 | ∈ E∗
x to the “generalized ket” |ξx0 i
that are not physical states but are advantageous from the practical point of view.
Another example is the continuous basis consisting of plane waves truncated outside an interval of width L
v(L)
p0
(x) =
1
√
2π~
eip0x/~
; −
L
2
≤ x ≤
L
2
with the function v
(L)
p0 (x) going rapidly to zero outside of that interval, but keeping continuity and differentiability.
The ket associated is denoted as
v
(L)
p0
E
v(L)
p0
(x) ∈ ̥x ↔
v(L)
p0
E
∈ Ex
the square of the norm is ∼ L/2π~, diverges if L → ∞. Therefore
lı́m
L→∞
v(L)
p0
E
/
∈ Ex
now we consider the limit of the bra
D
v
(L)
p0
associated with
v
(L)
p0
E
and applied to an arbitrary vector |ψi ∈ Ex
D
v(L)
p0
ψi =

v(L)
p0
, ψ

≃
1
√
2π~
Z L/2
−L/2
dx e−ip0x/~
in the limit L → ∞ we find ψ̄ (p0) i.e. the Fourier transform of ψ (x) evaluated at p = p0. From which we see that
the inner product converges and is well-defined
lı́m
L→∞
D
v(L)
p0
≡ hvp0 | ∈ E∗
x
but it does not correspond to the ket associated with the limit of kets of the form
v
(L)
p0
E
.
We could take the results above with the following point of view, the ket |ξx0 i means the ket given by
ξ
(ε)
x0
E
with ε much smaller than any other length involved in the problem, so we are really working in Ex. The results
obtained at the end depends very little on ε as long as it is much smaller than any other length in the problem.
Certainly,
ξ
(ε)
x0
E
does not form an orthonormal basis, and do not satisfy a closure realtion with ε 6= 0, but it
aproaches the orthonormality and closure conditions as ε becomes very small.
The introduction of generalized kets, will ensure that we balance bras and kets in the limits concerned
above. Generalized kets do not have finite norm, but they can acquire a finite inner product with kets of our space
of states.
1.38. The action of linear operators in Dirac notation
Linear operators are characterized easily in Dirac notation
ψ′

= A |ψi ; |ψi ,
ψ′

∈ Ex
A (α |ψi + β |ϕi) = αA |ψi + βA |ϕi
1.38. THE ACTION OF LINEAR OPERATORS IN DIRAC NOTATION 83
the product of operators writes
AB |ψi = A (B |ψi)
it is also important to calculate the inner product between |ϕi and |ψ′i = A |ψi in the form
|ϕi ,
ψ′

= (|ϕi , A |ψi) = hϕ| (A |ψi)
this is usually denoted simply as
hϕ| (A |ψi) ≡ hϕ| A |ψi
1.38.1. Projectors
The simplest of all projectors are the ones in which the range are one dimensional subspaces of the Hilbert
space. Let {|ψi} be the one dimensional space spanned by the single non-zero ket |ψi. The projector P|ψi takes
an arbitrary ket |ϕi ∈ Ex and maps it into {|ψi} i.e.
P|ψi |ϕi = α |ψi ; α ≡ hψ| ϕi
in Dirac notation it could be written as
P|ψi ≡ |ψi hψ| ; P|ψi |ϕi = (|ψi hψ|) |ϕi = |ψi hψ| ϕi = α |ψi (1.154)
the most important property of a projector is the idempotence so that
P2
|ψi ≡ (|ψi hψ|) (|ψi hψ|) = |ψi hψ| ψi hψ| = P|ψi
⇒ hψ| ψi = 1
so the definition of P|ψi Eq. (1.154) as a projector is consistent only if |ψi is normalized.
Now we can write the projector onto a subspace of more than one dimension. If nj is the dimension of the
subspace M
(nj)
j ⊆ Ex we can define the projector from a complete orthonormal set
ui
j
	
; i = 1, .., nj (1.155)
that spans such a subspace
Ex = M
(n1)
1 ⊕ . . . ⊕ M
(nj)
j ⊕ . . .
x = x1 + . . . + xj + . . .
x =
n1
X
i=1
α
(1)
i ui
1 + . . . +
nj
X
i=1
α
(j)
i ui
j + . . .
α
(n)
k ≡

uk
n, x

PMj x = xj =
nj
X
i=1
α
(j)
i ui
j
PMj x =
nj
X
i=1
ui
j, x

ui
j
in Dirac notation it is
PMj |xi =
nj
X
i=1
hui
j |xi
ui
j

=
nj
X
i=1
ui
j
 

ui
j
|xi
84 CAPÍTULO 1. LINEAR OR VECTOR SPACES
thus a direct notation for the projector is
PMj ≡
nj
X
i=1
ui
j
 

ui
j
(1.156)
it is clear that this is a projector as long as Eq. (1.155) defines an orthonormal set that spans M
(nj)
j of dimension
nj.
P2
Mj
=
nj
X
i=1
ui
j
 

ui
j
! nj
X
k=1
uk
j
E D
uk
j
!
=
nj
X
i=1
nj
X
k=1
ui
j

hui
j
uk
j
E D
uk
j
P2
Mj
=
nj
X
i=1
nj
X
k=1
ui
j

δik
D
uk
j
=
nj
X
i=1
ui
j
 

ui
j
= PMj
If we have an observable A, its spectrum of eigenvectors forms a basis and we can construct a complete orthonormal
set. In that case, the spectral theorem (assuming it can be extended to infinite dimension for observables) says that
the identity and the observable A itself can be decomposed by means of the projectors built on each eigensubspace
of the observable, if Mi is the eigensubspace generated by the eigenvalue λi of A we have that
Ex = M1 ⊕ . . . ⊕ Mi ⊕ . . .
x = x1 + . . . + xi + . . .
Pix = xi
in Dirac notation we have
Pi =
ni
X
j=1
uj
i
E D
uj
i
the spectral theorem says that
∞
X
i=1
Pi =
∞
X
i=1
ni
X
j=1
uj
i
E D
uj
i
= I (1.157)
∞
X
i=1
λiPi =
∞
X
i=1
ni
X
j=1
λi
uj
i
E D
uj
i
= A (1.158)
these forms will be applied frequently in quantum mechanics. Notice that Eq. (1.157) is valid if and only if
n
uj
i
o
is a complete orthonormal set. Thus the decomposition of the identity in projectors is usually taken as the closure
relation for the basis (or hyperbasis) in which we are working.
It is also usual to work with a more general type of projector of the form
P = |ψi hϕ| (1.159)
applying an arbitrary vector on it we find
|ψi hϕ| χi = α |ψi ; α ≡ hϕ| χi
this is a projector on the one dimensional subspace {|ψi}. This operator is idempotent only if hϕ| is normal,
however it defines a non-orthogonal projection, since we shall see later that this operator is not self-adjoint or
hermitian.
1.39. HERMITIAN CONJUGATION 85
1.39. Hermitian conjugation
We have defined the action of a linear operator on a ket. We see that it induces a natural action of the operator
on the bra
f|ϕi (A |ψi) = (|ϕi , A |ψi) ≡ gA|ϕi (|ψi) ∀ |ψi ∈ Ex (1.160)
the definition of the new functional gA|ϕi from a given f|ϕi and a given A is written in Dirac notation as14
f|ϕi ≡ hϕ|
A
→ gA|ϕi ≡ hϕ| A (1.161)
and Eq. (1.160) is written as
hϕ| (A |ψi) = (hϕ| A) (|ψi) (1.162)
so it is written simply as
hϕ| A |ψi
we should check that g is indeed a functional i.e. that it is a continuous linear mapping of the vectors into the
complex numbers, the basic properties of functionals are reproduced
gαA|ϕi+βA|χi (ψ) = α∗
gA|ϕi (|ψi) + β∗
gA|χi (|ψi)
gA|ϕi (α |ψi + β |χi) = αgA|ϕi (|ψi) + βgA|ϕi (|χi)
Further, the association (1.161) is linear, to see it, we write a linear combination of bras
hϕ| = λ1 hϕ1| + λ2 hϕ2|
which means that
hϕ| ψi = λ1 hϕ1| ψi + λ2 hϕ2| ψi ; ∀ |ψi ∈ Ex
then
(hϕ| A) (|ψi) = hϕ| (A |ψi) = (λ1 hϕ1| + λ2 hϕ2|) (A |ψi)
= λ1 hϕ1| (A |ψi) + λ2 hϕ2| (A |ψi)
= λ1 (hϕ1| A) |ψi + λ2 (hϕ2| A) |ψi
since ψ is arbitrary we find
hϕ| A = λ1 hϕ1| A + λ2 hϕ2| A
notice that is different to start with a linear combination of kets from starting with a linear combination of bras,
because the linear combination of a ket corresponds to a linear combination with conjugate coefficients in the bras
(antilinearity). The order is important, the new bra induced from hϕ| by the operator A is written as hϕ| A and
not in the form A hϕ|. For instance if we apply this relations to a ket the first expression hϕ| A |ψi is a complex
number, while the second A hϕ| ψi = αA is another operator.
1.39.1. The adjoint operator A†
in Dirac notation
In Dirac notation we write |ψ′i = A |ψi ≡ |Aψi. We now want to know what is the corresponding bra
|ψ′i ↔ hψ′| ≡ hAψ|. In mathematical notation the question is
|ψi → f|ψi ;
ψ′

= A |ψi ≡ |Aψi ⇒
ψ′
 ?
→ f|ψ′i
14
Notice that gA|ψi is a new functional induced from f|ϕi and A. Of course gA|ψi must be associated to some vector i.e. gA|ψi = f|χi
for some |χi in our vector space, but it does not concern us. In particular, it is very important to observe that gA|ψi 6= fA|ψi.
86 CAPÍTULO 1. LINEAR OR VECTOR SPACES
to elucidate the answer we apply an arbitrary vector |ϕi to the functional we want to find
fA|ψi (|ϕi) = f|ψ′i (|ϕi) = hψ′
|ϕi = hAψ| ϕi = hψ| A†
ϕi
where we have applied property (1.36). Now we apply property (1.162) to get
f|ψ′i (|ϕi) = hψ|
A†
ϕ
E
=

hψ| A†

(|ϕi)
since this is valid for |ϕi arbitrary we find
f|ψ′i ≡


ψ′
= hψ| A†
in Dirac notation we have then
ψ′

= A |ψi ≡ |Aψi


ψ′
= hψ| A†
≡ hAψ|
notice that as before, the mapping of the dual space into itself is denoted with the operator defined on the right-
hand side and not on the left15. Further by assigning A = λI and taking into account that A† = λ∗I we have
that


ψ′
= hλψ| = hλIψ| = hψ| (λI)†
= hψ| λ∗
I ⇒
hλψ| = λ∗
hψ|
in agreement with Eq. (1.152). On the other hand since


ψ′
ϕi = hϕ| ψ′
i∗
we see that
hψ| A†
|ϕi = hϕ| A |ψi∗
(1.163)
and we remember the most important properties of the adjoint operators (see Eqs. (1.35))

A†
†
= A , (αA + βB)†
= α∗
A†
+ β∗
B†
(1.164)
(AB)†
= B†
A†
(1.165)
1.39.2. Mathematical objects and hermitian conjugation in Dirac notation
In general, the order of bras, kets and operators is of major importance, the only objects we can put in any
order are scalars, for instance the mathematical objects
λ hϕ| B |ψi ; λ hψ| B |ϕi ; λ hψ| ϕiB ; λ |ψi hϕ| B (1.166)
are all distinct each other, the first and second are complex numbers, while the last two are operators, as can be
verified by applying an arbitrary vector on the right-hand side of these objects. However, expressions like
λ |ψi hϕ| B ; |ψi λ hϕ| B ; |ψi hϕ| λB ; |ψi hϕ| Bλ
are all equal, indeed we could think about the multiplication by a scalar as equivalent to the operator λI which
commutes with everything.
15
Stricktly speaking, a mapping of the dual (or conjugate) space into itself is carried out by the conjugate operator instead of the
adjoint operator since the latter maps the Hilbert space into itself and not the dual. Notwithstanding, from the practical point of view
this subtlety is irrelevant.
1.39. HERMITIAN CONJUGATION 87
We shall now define a useful operation that we call hermitian conjugation. Our basic objects are kets, bras,
operators and scalars. In general words, hermitian conjugations are mappings induced by the existence of the dual
E∗ of our Hilbert space E.
A ket |ψi ∈ E is naturally mapped into a bra hψ| ∈ E∗.
A bra hψ| ∈ E∗ is naturally mapped into an element of the conjugate space of E∗, i.e on E∗∗. However, for
Hilbert spaces it can be shown that E∗∗ = E hence the bra is mapped into its corresponding ket16.
An operator A in ß(E) is mapped naturally into the conjugate vector A∗ in ß(E∗) but the inner product
structure permits in turn to define another operator A† in ß(E) from A∗ and from the practical point of view we
regard A∗ and A† as identical. Thus the hermitian conjugation in this case will be the mapping A → A†.
Now finally for scalars. Taking into account that for all practical uses scalars λ can be considered as operators
in ß(E) of the form λI we see that the natural hermitian conjugation gives λI → (λI)†
= λ∗. Therefore, the
natural conjugation operation is λ → λ∗.
We notice now that the hermitian conjugation reverses the order of the objects to which it is applied. We have
seen that (A |ψi)†
= hψ| A†, Eq. (1.165) shows that the order of a product of operators is reversed when we apply
the “adjointness” (or hermitian conjugation) on that product, when scalars are involved the place in which scalars
are located is irrelevant.
By the same token, let us see what is the conjugate of the non orthogonal projection defined in (1.159)
P = |ψi hϕ| ; P†
= (|ψi hϕ|)†
applying Eq. (1.163) we find
hχ| (|ψi hϕ|)†
|ηi = [hη| (|ψi hϕ|) |χi]∗
= hη| ψi∗
hϕ| χi∗
= hχ| ϕi hψ| ηi
hχ| (|ψi hϕ|)†
|ηi = hχ| (|ϕi hψ|) |ηi ; ∀ |ηi , |χi ∈ E
then we have
(|ψi hϕ|)†
= |ϕi hψ| (1.167)
once again, the hermitian conjugation converts each object in its hermitian conjugate and reverse the order of
such objects.
These observations permit to give a rule to obtain the hermitian conjugate of a mathematical object composed
by a juxtaposition of bras, kets, operators and scalars. The rule is (a) replace each object by its hermitian conjugate
|ψi → hψ| , hϕ| → |ϕi , A → A†
, λ → λ∗
and (b) reverse the order of the factors, taking into account that the position of the scalars are not relevant.
The hermitian conjugate of the objects defined in (1.166) are given by
[λ hϕ| B |ψi]†
= hψ| B†
|ϕi λ∗
= λ∗
hψ| B†
|ϕi = [λ hϕ| B |ψi]∗
[λ hψ| B |ϕi]†
= hϕ| B†
|ψi λ∗
= λ∗
hϕ| B†
|ψi = [λ hψ| B |ϕi]∗
[λ hψ| ϕiB]†
= B†
hϕ| ψiλ∗
= λ∗
hϕ| ψiB†
= (λ hψ| ϕi)∗
B†
[λ |ψi hϕ| B]†
= B†
|ϕi hψ| λ∗
= λ∗
B†
|ϕi hψ| = λ∗
B†
[|ψi hϕ|]†
in the first two expressions the original mathematical objects are scalars and hence the hermitian conjugates
are also scalars (the complex conjugates of the original scalars). In the third expression the original object is
an operator and its hermitian conjugate is also an operator (the adjoint of the original operator). In the fourth
expression, the original object is a product of two operators and a scalar (a scalar times a projection times the
operator B) and the adjoint is the product of the scalar and adjoint of each of the operators in reverse order. In
16
In Banach spaces, the property B∗∗
= B is called reflexibity and is not in general satisfied. For Hilbert spaces, reflexibity is
automatic from which we can assign the dual element of a dual element to the original vector. This is another satisfying property of
Hilbert spaces, not accomplished by general Banach spaces.
88 CAPÍTULO 1. LINEAR OR VECTOR SPACES
each case, the scalars are located in the most convenient place since their positions are unimportant. Indeed, we
can put the conjugate of the scalars in any place, for instance in the case
[λ |χi hψ| B |ϕi]†
= [λ hψ| B |ϕi |χi]†
= λ∗
hψ| B |ϕi∗
hχ|
that coincides with the rules when we take into account Eq. (1.163).
It is important to see that according to (1.167) the projectors given by (1.154) are hermitian, thus according
to theorem 1.44, they are orthogonal projectors (i.e. projectors in the sense of a Hilbert space), this in turn says
that the sums in (1.156) are also orthogonal projectors (see theorem 1.50). On the other hand, the projectors
described by (1.159) with |ϕi 6= |ψi are non-hermitian and consequently they are non-orthogonal projections.
1.40. Theory of representations of E in Dirac notation
For most of our purposes we shall use a representation with respect to orthonormal bases. The particular
problem suggests the particular basis to work with. Most of the developments here are not new but gives us a
very good opportunity of using the Dirac notation and be aware of its great advantages as a tool for calculations.
We are going to describe the representation theory in both discrete and continuous bases.
1.40.1. Orthonormalization and closure relation
In Dirac notation, the orthonormality of a set of discrete {|uii} or continuous {|wαi} orthonormal kets is
expressed by
hui |uji = δij ; hwα |wα′ i = δ α − α′

we emphasize once again that hwα |wαi diverges so that |wαi does not have a bounded norm and thus it does not
belong to our state space. We call |wαi generalized kets because they can be used to expand any ket of our state
space.
A discrete set {ui} or a continuous one {wα} constitutes a basis if each ket |ψi of our state space can be
expanded in a unique way on each of these sets
|ψi =
X
i
ci |uii ; |ψi =
Z
dα c (α) |wαi (1.168)
the problem is considerably simplified if we asume that the bases are orthonormal, because in that case we can
extract the coefficients by applying a bra huk| or hwα′ | on both sides of these equations
huk |ψi = huk|
X
i
ci |uii ; hwα′ |ψi = hwα′ |
Z
dα c (α) |wαi
huk |ψi =
X
i
ci huk| uii =
X
i
ciδki = ck
hwα′ |ψi =
Z
dα c (α) hwα′ | wαi =
Z
dα c (α) δ α − α′

= c α′

from which we obtain the familiar result
ck = huk |ψi ; c α′

= hwα′ |ψi (1.169)
replacing the Fourier coefficients (1.169) in the expansions (1.168) we find
|ψi =
X
i
hui |ψi |uii =
X
i
|uii hui |ψi =
X
i
|uii hui|
!
|ψi
|ψi =
Z
dα hwα |ψi |wαi =
Z
dα |wαi hwα |ψi =
Z
dα |wαi hwα|

|ψi
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 89
since this is valid for any ket |ψi ∈ E the operators in parenthesis must be the identity operator on E
P{ui} ≡
X
i
|uii hui| = I ; P{wα} ≡
Z
dα |wαi hwα| = 1 (1.170)
we can reverse the steps and show that applying the identity in the form given by Eqs. (1.170) we obtain that any
|ψi ∈ E must be a unique linear combination of {|uii} or {|wαi}
|ψi = I |ψi = P{ui} |ψi =
X
i
|uii hui|
!
|ψi =
X
i
|uii hui| ψi
|ψi =
X
i
ci |uii ; ci ≡ hui| ψi (1.171)
|ψi = I |ψi = P{wα} |ψi =
Z
dα |wαi hwα|

|ψi =
Z
dα |wαi hwα| ψi
|ψi =
Z
dα c (α) |wαi ; c (α) ≡ hwα| ψi
these facts show that Eqs. (1.170) manifest a closure relation in Dirac notation. This is consistent with our
discussion in Sec. 1.38.1 that led to Eq. (1.157), in which we saw that each element of the form |uii hui| is
a projector operator and Eqs. (1.170) are decompositions of the identity in projectors17. In other words, the
projector given by the sums in (1.170) has the whole space as its range. In the case of the continuous basis, they
are “hyperprojectors” but we shall call them projectors from now on.
Hence the representation of a ket |ψi in a discrete basis is given by the set of its fourier coefficients {hui| ψi}
it is usually written in matrix form as a column matrix
|ψi =








hu1| ψi
hu2| ψi
.
.
.
hui| ψi
.
.
.








=








c1
c2
.
.
.
ci
.
.
.








the representation of a ket |ψi in a continuous basis is given by the set of its fourier transforms {hui| ψi} it is
usually written in continuous matrix form as a column matrix
|ψi =




.
.
.
hwα| ψi
.
.
.



 =




.
.
.
c (α)
.
.
.




the representation of a bra can be obtain by the same insertion of the identity as follows
hψ| = hψ| I = hψ| P{ui} =
X
i
hψ| uii hui|
hψ| =
X
i
c∗
i hui| ; ci = hui| ψi
17
In Eq. (1.157) the lower index labels the eigenvalue and the upper index indicates the degree of degeneracy of the given eigenvalue.
In Eq. (1.170) the single index runs over all different eigenvectors.
90 CAPÍTULO 1. LINEAR OR VECTOR SPACES
which can also be obtained by taking the hermitian conjugation of Eq. (1.171) and applying (1.152). For continuous
basis the process is similar
hψ| = hψ| I = hψ| P{wα} =
Z
dα hψ| wαi hwα|
hψ| =
Z
dα c∗
(α) hwα| ; c (α) = hwα| ψi
in matrix notation the bra is represented as a one row matrix of the coefficients, in both the discrete and continuous
cases
hψ| = hψ| u1i hψ| u2i · · · hψ| uii · · ·

hψ| = c∗
1 c∗
2 · · · c∗
3 · · ·

hψ| = · · · c∗ (α) · · ·

by comparing the representation of the corresponding ket |ψi we see that the representation of the bra is obtained
by transposing the matrix representative of the ket (i.e. converting the column in a row) and taking the conjugate
of each element.
Let us reproduce the inner product expressions (1.107) and (1.114) by insertion of the identity with projectors
hϕ| ψi = hϕ| I |ψi = hϕ| P{ui} |ψi =
X
i
hϕ| uiihui |ψi
hϕ| ψi =
X
i
b∗
i ci ; bi = hui| ϕi ; ci = hui |ψi
hϕ| ψi = hϕ| I |ψi = hϕ| P{wα} |ψi =
Z
dα hϕ| wαihwα |ψi
hϕ| ψi =
Z
dα b∗
(α) c (α) ; b (α) = hwα| ϕi ; c (α) = hwα |ψi
in matrix form we can see the inner product as the product of a row vector times a column vector
hϕ| ψi = b∗
1 b∗
2 · · · b∗
3 · · ·









c1
c2
.
.
.
ci
.
.
.








=
X
i
b∗
i ci
in continuum form we have
hϕ| ψi = · · · b∗ (α) · · ·





.
.
.
c (α)
.
.
.



 =
Z
dα b∗
(α) c (α)
and the norms are obtained with ϕ = ψ i.e. bi = ci or b (α) = c (α)
hψ| ψi = kψk2
=
X
i
|ci|2
=
Z
dα |c (α)|2
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 91
1.40.2. Representation of operators in Dirac notation
Let us see the representation of an operator A under a basis {ui} or {wα}. We have seen that a matrix
representative of A under the basis {ui} is
Aij = hui| Auji = hui| A |uji
and in a continuous basis
A α, α′

= hwα| A |wα′ i
they are arranged in a square matrix with infinite countable or continuous numbers of columns and rows
A =








A11 A12 · · · A1j · · ·
A21 A22 · · · A2j · · ·
.
.
.
.
.
.
.
.
.
Ai1 Ai2 · · · Aij · · ·
.
.
.
.
.
.
.
.
.








A =




.
.
.
· · · A (α, α′) · · ·
.
.
.




it is interesting to see the matrix representative of a product of operators by insertion of the identity
(AB)ij = hui| AB |uji = hui| AIB |uji = hui| AP{ui}B |uji =
X
k
hui| A |uki huk| B |uji
(AB)ij =
X
k
AikBkj
which coincides with the algorithm for matrix multiplication developed in Sec. 1.14.1, Eq. (1.50). We can develop
easily the matrix multiplication algorithm with continuum matrices
(AB) (α, β) = hwα| AB |wβi = hwα| AIB |wβi = hwα| AP{ui}B |wβi
(AB) (α, β) =
Z
dγ hwα| A |wγi hwγ| B |wβi
(AB) (α, β) =
Z
dγ A (α, γ) B (γ, β) (1.172)
now let us see the matrix representative of the ket |ψ′i given by
A |ψi =
ψ′

from the knowledge of the components of |ψi and A, in a given representation {ui}. The coordinates of |ψ′i in
this basis is
c′
i = hui
ψ′

= hui| A |ψi = hui| AI |ψi = hui| AP{ui} |ψi =
X
k
hui| A |uki huk| ψi
c′
i =
X
k
Aikck
92 CAPÍTULO 1. LINEAR OR VECTOR SPACES
that explicitly can be illustrated as








c′
1
c′
2
.
.
.
c′
i
.
.
.








=








A11 A12 · · · A1j · · ·
A21 A22 · · · A2j · · ·
.
.
.
.
.
.
.
.
.
Ai1 Ai2 · · · Aij · · ·
.
.
.
.
.
.
.
.
.
















c1
c2
.
.
.
ci
.
.
.








with a continuous basis {wα} we have
c′
(α) = hwα| ψ′
i = hwα| A |ψi = hwα| AI |ψi = hwα| AP{wα} |ψi =
Z
dβ hwα| A |wβi hwβ |ψi
c′
(α) =
Z
dβ A (α, β) c (β)
which is the continuous extension of multiplication of a matrix with a column vector.
Let us see the representation of the bra hψ| A
hψ| A = hψ| IAI =
X
i
X
j
hψ| uii hui| A |uji huj|
=
X
i
X
j
c∗
i Aij huj|
Therefore, the bra hψ| A is represented by the product of the row matrix that represents hψ| times the square
matrix representing A respecting the order
hψ| A = c∗
1 c∗
2 · · · c∗
3 · · ·









A11 A12 · · · A1j · · ·
A21 A22 · · · A2j · · ·
.
.
.
.
.
.
.
.
.
Ai1 Ai2 · · · Aij · · ·
.
.
.
.
.
.
.
.
.








observe that the matrix product is not defined in the opposite order, thus we cannot give meaning to A hψ|.
In many cases, it is also interesting to calculate the element hϕ| A |ψi in terms of the coordinates of the bra
and the ket and in terms of the components of A. To do it, we insert an expansion of the identity twice
hϕ| A |ψi = hϕ| IAI |ψi = hϕ| P{ui}AP{ui} |ψi =
X
i
X
j
hϕ| uii hui| A |uji huj |ψi
hϕ| A |ψi =
X
i
X
j
b∗
i Aijcj ; bi = hui| ϕi, Aij = hui| A |uji , cj = huj |ψi
which in matrix form is written as a bilinear form
hϕ| A |ψi = b∗
1 b∗
2 · · · b∗
3 · · ·









A11 A12 · · · A1j · · ·
A21 A22 · · · A2j · · ·
.
.
.
.
.
.
.
.
.
Ai1 Ai2 · · · Aij · · ·
.
.
.
.
.
.
.
.
.
















c1
c2
.
.
.
ci
.
.
.








(1.173)
1.41. CHANGE OF REPRESENTATIONS 93
this is the natural way of superposing the representations of hϕ|, A, and |ψi respecting the order. The result is of
course a number. The extension for continuous bases is
hϕ| A |ψi = hϕ| P{wα}AP{wβ} |ψi =
Z
dα
Z
dβ hϕ| wαi hwα| A |wβi hwβ |ψi
and we obtain
hϕ| A |ψi =
Z Z
dα dβ b∗
(α) A (α, β) c (β)
b (α) = hwα| ϕi ; A (α, β) = hwα| A |wβi ; c (β) = hwβ |ψi
notice that Eq. (1.162) expresses the associativity of the matrix expressions given by Eq. (1.173).
Finally, the projection operator P = |ψi hψ| has matrix representative given by
Pij = hui| P |uji = hui| ψihψ |uji = cic∗
j
in matrix language it is written as
|ψi hψ| =








c1
c2
.
.
.
ci
.
.
.








c∗
1 c∗
2 · · · c∗
3 · · ·

=








c1c∗
1 c1c∗
2 · · · c1c∗
j · · ·
c2c∗
1 c2c∗
2 · · · c2c∗
j · · ·
.
.
.
.
.
.
.
.
.
cic∗
1 cic∗
2 · · · cic∗
j · · ·
.
.
.
.
.
.
.
.
.








this representation is particularly simple when P = |uki huk| i.e. when the ket that forms the projector is part of
the basis.
The matrix representation of the adjoint operator is obtained by using property (1.163)

A†

ij
= hui| A†
|uji = huj| A |uii∗
= A∗
ji

A†

(α, β) = hwα| A†
|wβi = hwβ| A |wαi∗
= A∗
(β, α)
these results coincide with the one obtained in Eq. (1.70). If A is hermitian then A = A† and
Aij = A∗
ji ; A (α, β) = A∗
(β, α) (1.174)
in particular applying these conditions for i = j or α = β we see that the diagonal elements of an hermitian matrix
are real. These facts are valid only if the basis is orthonormal, otherwise the matrix representative of the adjoint
of the matrix takes another form.
1.41. Change of representations
In a representation characterized by a given orthonormal basis {|uii} the kets, bras and operators have some
specific matrix representatives. We want to write the matrix representative of these objects in a new orthonormal
basis {|tki} using the Dirac notation18. For future purposes we define the matrix S in the form
Sik ≡ hui| tki ;

S†

ki
= S∗
ik = htk| uii
18
This problem is a bit lees general that the one treated in Sec. (1.14), because in that section the bases involved are non necessarily
orthonormal. However, in this case we are treating the problem in infinite dimension.
94 CAPÍTULO 1. LINEAR OR VECTOR SPACES
To give a geometrical meaning to S, let define V
(k)
i ≡ Sik and V(k) the k−th column vector with components Sik.
Then, it is clear that V(k) is the matrix representative (column matrix) of the element |tki in the basis {|uii}. We
then construct a square matrix by putting these column vectors side by side
S = V(1) V(2) · · ·

=






S11
S21
.
.
.






S12
S22
.
.
.


 · · ·


 =



S11 S12 · · ·
S21 S22 · · ·
.
.
.
.
.
.



We can also see that S is a unitary matrix

S†
S

km
=
X
i
S†
kiSim =
X
i
htk| uii hui| tmi = htk| P{ui} |tmi = htk| tmi = δkm

SS†

ij
=
X
k
SikS†
kj =
X
k
hui| tki htk| uji = hui| P{tk} |uji = hui| uji = δij
consequently
S†
S = SS†
= I
On the other hand, we will also require the closure and orthonormalization relations with both bases
P{ui} =
X
i
|uii hui| = I ; hui| uji = δij
P{tk} =
X
k
|tki htk| = I ; htk| tmi = δkm
1.41.1. Transformation of the coordinates of a ket
The coordinates of a ket |ψi in the basis {|uii} are hui| ψi ≡ |ψi(ui)
. To know the coordinates in the new basis
htk| ψi, in terms of the old ones, we insert the closure relation for {|uki} in the element htk| ψi
htk| ψi =
X
i
htk| uii hui| ψi =
X
i
S†
ki hui| ψi
c
(t)
k =
X
i
S†
kic
(u)
i ; c(t)
= S†
c(u)
The inverse relation can be obtained by taking into account that S† = S−1
c(t)
= S−1
c(u)
⇒ c(u)
= Sc(t)
or alternatively by inserting an identity in the element hui| ψi
hui| ψi =
X
k
hui| tki htk| ψi =
X
k
Sik htk| ψi
c
(u)
i =
X
k
Sikc
(t)
k ; c(u)
= Sc(t)
1.41.2. Transformation of the coordinates of a bra
We insert the identity in the element hψ| tki
hψ| tki =
X
i
hψ| uii hui| tki =
X
i
hψ| uiiSik
c
∗(t)
k =
X
i
c
∗(u)
i Sik ⇒ e
c∗(t)
= e
c∗(u)
S
similarly
e
c∗(u)
= e
c∗(t)
S†
1.42. REPRESENTATION OF THE EIGENVALUE PROBLEM IN DIRAC NOTATION 95
1.41.3. Transformation of the matrix elements of an operator
We start with htk| A |tmi and insert two identities
htk| A |tmi = htk| IAI |tmi =
X
i
X
j
htk| uii hui| A |uji huj |tmi =
X
i,j
S†
kiA
(u)
ij Sjm
A
(t)
km =
X
i,j
S†
kiA
(u)
ij Sjm ; A(t)
= S†
A(u)
S (1.175)
and the inverse relation is obtained from
huk| A |umi =
X
i,j
huk| tii hti| A |tji htj |umi =
X
i,j
SkiA
(t)
ij S†
jm
A
(u)
km =
X
i,j
SkiA
(t)
ij S†
jm ; A(u)
= SA(t)
S†
(1.176)
or taking into account that S† = S−1.
1.42. Representation of the eigenvalue problem in Dirac notation
For a given observable A the eigenvalue problem reads
A |ψi = λ |ψi
we want to construct its matrix representation in a basis {ui}. We first multiply by a bra of the form hui| on both
sides
hui| A |ψi = λhui |ψi
and insert an identity
X
j
hui| A |uji huj |ψi = λhui |ψi
X
j
Aijcj = λci ; ci ≡ hui |ψi ; Aij ≡ hui| A |uji
with ci and Aij the matrix elements of |ψi and A in the basis {ui}. This expression can be rewritten as
X
j
[Aij − λδij] cj = 0
which is the well known expression for the eigenvalue problem in matrix form.
1.42.1. C.S.C.O. in Dirac notation
Assume that a given set of observables {A1, ..., Am} forms a C.S.C.O. Then a given set of eigenvalues
n
a
(1)
n1 , ..., a
(m)
nm
o
defines a unique normalized eigenvector common to all the observables (within a phase factor). We shall see later
that any set of kets that differ in a global phase factor
|ψi , eiθ1
|ψi , ..., eiθk
|ψi
have the same physical information. Thus, the normalized ket associated with the set
n
a
(1)
n1 , ..., a
(m)
nm
o
is unique
from the physical pointof view. Therefore, it is usual to denote the corresponding ket in the form |ψn1,...,nmi or
simply as |n1, n2, ..., nmi and the set of eigenvalues are called quantum numbers.
Ai |n1, . . . , ni, ..., nmi = a(i)
ni
|n1, . . . , ni, ..., nmi ; i = 1, .., m
96 CAPÍTULO 1. LINEAR OR VECTOR SPACES
1.43. The continuous bases |ri and |pi
From the wave functions space ̥ we have constructed the abstract space Er such that there is an isometric
isomorphism of ̥ onto Er, therefore they are abstractly identical as Hilbert spaces. Consequently, an element
ψ (r) ∈ ̥ has a unique image |ψi ∈ Er and vice versa. In particular, the inner product must be preserved by this
correspondence
|ψi ↔ ψ (r) ; |ϕi ↔ ϕ (r) ; hψ| ↔ ψ∗
(r) ; hϕ| ↔ ϕ∗
(r)
(|ϕi , |ψi) = (ϕ, ψ) ≡ hϕ| ψi =
Z
d3
r ϕ∗
(r) ψ (r)
Er will describe the state space of a spinless particle. We have discussed before that ψ (r) can also be interpreted
as a representation of the abstract ket |ψi in the continuous basis {ξr (r′)} defined in Eq. (1.120). We also saw that
ξr (r′) are not elements of ̥, but they can be used to expand any element of ̥ in a unique way. We call ξr (r′)
“generalized wave functions” and it is natural to associate with them some “generalized kets” denoted as |ri that
do not belong to Er but can expand any element of Er in such a way that if ψ (r) ↔ |ψi then the expansion of
ψ (r) under ξr (r′) has the same coefficients as the expansion of |ψi under |ri
ψ (r) =
Z
dr′
c r′

ξr′ (r) ; |ψi =
Z
dr′
c r′
r′

We denote this association as ξr ↔ |ri. Similarly, for the continuous basis defined in Eq. (1.116) by {vp (r)} which
has plane waves as “generalized wave functions”, we shall have a continuous basis of Er denoted as |p0i
ξr r′

↔ |ri ; vp (r) ↔ |pi
therefore, using the bases {ξr (r′)} and {vp (r)} of ̥ we have defined two continuous basis in Er denoted as
{|ri} and {|pi}. Consequently, all bras, kets and operators in Er will have a continuous matrix representation
in these bases. The basis {|ri} is labeled by three continuous indices x, y, z which are the coordinates of a point
in three dimensional space. Similarly, the basis {|pi} is labeled by three continuous indices px, py, pz which are
components of a cartesian vector.
1.43.1. Orthonormalization and closure relations
We shall calculate hr |r′i using the definition of the scalar product in Er
hr
r′

=
Z
d3
r′′
ξ∗
r r′′

ξr′ r′′

=
Z
d3
r′′
δ r′′
− r

δ r′′
− r′

hr
r′

= δ r − r′

(1.177)
similarly
hp
p′

=
Z
d3
r v∗
p (r) vp′ (r) =

1
2π~
3 Z
d3
r e−ip·r/~
eip′·r
=

1
2π~
3 Z
d3
r e−i(p−p′)·r/~
hp
p′

= δ p − p′

where we have used property (1.117). The closure relations for {|ri} and {|pi} are written according with the
second of Eqs. (1.170) integrating over three indices instead of one. The orthonormality and closure relations for
these bases are then
hr
r′

= δ r − r′

; hp
p′

= δ p − p′

(1.178)
Z
d3
r |ri hr| = I ;
Z
d3
p |pi hp| = I (1.179)
1.43. THE CONTINUOUS BASES |Ri AND |Pi 97
1.43.2. Coordinates of kets and bras in {|ri} and {|pi}
Consider an arbitrary ket |ψi corresponding to a wave function ψ (r). The closure relations for {|ri} and {|pi}
permits to expand |ψi as
|ψi =
Z
d3
r |ri hr| ψi =
Z
d3
r c (r) |ri ; |ψi =
Z
d3
p |pi hp| ψi =
Z
d3
p c̄ (p) |pi (1.180)
the coefficients c (r) = hr| ψi and c̄ (p) = hp| ψi are calculated as follows
hr| ψi =
Z
d3
r′
ξ∗
r r′

ψ r′

=
Z
d3
r′
δ r′
− r

ψ r′

= ψ (r)
hp| ψi =
Z
d3
r v∗
p (r) ψ (r) =

1
2π~
3/2 Z
d3
r e−ip·r/~
ψ (r) = ψ̄ (p)
hence
c (r) = hr| ψi = ψ (r) ; c̄ (p) = hp| ψi = ψ̄ (p) (1.181)
the coefficients c (r) of the expansion of |ψi under {|ri} are the wave functions evaluated at the point r, this fact
reinforces the interpretation of the wave function as the representation of |ψi under the basis |ri. The coefficients
c̄ (p) are the fourier transforms of the wave function, this coefficients ψ̄ (p) are usually called “wave functions in
momentum space”, since they represent the same abstract vector |ψi it is clear that ψ (r) and ψ̄ (p) contain the
same physical information, this can also be seen by taking into account that given ψ (r) then ψ̄ (p) is uniquely
determined and vice versa. On the other hand, by comparing Eqs. (1.180, 1.181) with Eqs. (1.121, 1.122) we see
that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξr (r′) has the same coefficients as the expansion of |ψi under
|ri as we demanded. Similar situation occurs with the basis {vp} in ̥ and the basis |pi in Er.
An important particular case arises when |ψi = |pi which is indeed a generalized ket. Assuming that all the
relations above are also valid for generalized kets, and taking into account that |pi ↔ vp (r), then Eq. (1.181)
gives
hr| pi = vp (r) =

1
2π~
3/2
eip·r/~
(1.182)
the same result is obtained by taking into account the equality of the inner product of vectors in ̥ and vectors
in Er when this equality is extended to generalized vectors
hr| pi = (|ri , |pi) = (ξr, vp) =
Z
d3
r′
ξ∗
r r′

vp r′

=
Z
d3
r′
δ r′
− r

vp r′

= vp (r)
applying Eq. (1.181) for |ψi = |r′i ↔ ψ (r) = ξr′ (r) we find
hr| r′
i = ξr′ (r) = δ r − r′

which is consistent with the orthonormalization relation. Similar arguments leads to
hp| ri = v∗
p (r) =

1
2π~
3/2
e−ip·r/~
; hp| p′
i = δ p − p′

Assume that we have an orthonormal basis {ui (r)} in ̥ and an orthonormal basis {|uii} in Er such that
ui (r) ↔ |uii. Starting with the closure relation for {|uii} in Er
X
i
|uii hui| = I
98 CAPÍTULO 1. LINEAR OR VECTOR SPACES
and evaluating the matrix element of it between |ri and |r′i we have
X
i
hr |uii hui| r′
i = hr| I
r′

= hr| r′
i
and using Eqs. (1.181, 1.178) we find X
i
ui (r) u∗
i r′

= δ r − r′

which is the closure relation as it was expressed in Eq. (1.110) for {ui (r)} in ̥, reversing the steps we can obtain
the closure relation for {|uii} in Er starting from the closure relation for {ui (r)} in ̥19.
Notice that the inner product of two kets in terms of their coordinates under the basis {|ri} is a particular
case of Eq. (1.114). Equivalently, we obtain it by insertion of the identity
hϕ |ψi =
Z
d3
r hϕ |ri hr |ψi
and interpreting the components hϕ |ri and hr |ψi as in Eq. (1.181)
hϕ |ψi =
Z
d3
r ϕ∗
(r) ψ (r)
a similar procedure can be done for the basis {|pi}
hϕ |ψi =
Z
d3
p hϕ |pi hp |ψi =
Z
d3
p ϕ̄∗
(p) ψ̄ (p)
from which it is obtained Z
d3
r ϕ∗
(r) ψ (r) =
Z
d3
p ϕ̄∗
(p) ψ̄ (p)
this is a well-known property of the Fourier trasnforms.
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa
The procedure is similar to the one in section 1.41 but for continuous basis. If we consider the change from
{|ri} to {|pi}, the unitary matrix S of changing the basis is
S (r, p) = hr |pi =

1
2π~
3/2
eip·r/~
(1.183)
a ket |ψi is represented as ψ (r) in {|ri} and we know well that in {|pi} it is given by ψ̄ (p). Here we see that it
is consistent with the formalism developed in Sec. 1.41
hp |ψi =
Z
d3
r hp |ri hr |ψi =
Z
d3
r S†
(r, p) hr |ψi
ψ̄ (p) =

1
2π~
3/2 Z
d3
r e−ip·r/~
ψ (r) (1.184)
similarly
hr |ψi =
Z
d3
p hr |pi hp |ψi =
Z
d3
p S (r, p) hp |ψi
ψ (r) =

1
2π~
3/2 Z
d3
p eip·r/~
ψ̄ (p) (1.185)
19
Notice that I (r, r′
) = hr′
| I |ri = hr′
| ri = δ (r − r′
) shows that the Dirac delta can be seen as the representation of the identity
under the continuous hyperbasis {|ri}.
1.43. THE CONTINUOUS BASES |Ri AND |Pi 99
the representation of bras can be obtained by hermitian conjugation of the relations with kets.
Now for a given operator, the matrix elements in {|pi} read A (p′, p) = hp′| A |pi inserting two identities we
get


p′
A |pi =
Z
d3
r′
Z
d3
r


p′
r′
i


r′
A |ri hr |pi


p′
A |pi =
Z
d3
r′
Z
d3
r S†
r′
, p′

A r′
, r

S (r, p)
which is the continuous generalization of (1.175). Using (1.183) we find
A p′
, p

=

1
2π~
3 Z
d3
r′
Z
d3
r e−ip′·r′/~
A r′
, r

eip·r/~
A p′
, p

=

1
2π~
3 Z
d3
r′
Z
d3
r e−i(p′·r′−p·r)/~
A r′
, r

the inverse relation is obtained from


r′
A |ri =
Z
d3
p′
Z
d3
p


r′
p′
i


p′
A |pi hp |ri


r′
A |ri =
Z
d3
p′
Z
d3
p S r′
, p′

A p′
, p

S†
(r, p)
this is the continuous generalization of (1.176). From (1.183) we find
A r′
, r

=

1
2π~
3 Z
d3
p′
Z
d3
p eip′·r′/~
A p′
, p

e−ip·r/~
A r′
, r

=

1
2π~
3 Z
d3
p′
Z
d3
p ei(p′·r′−p·r)/~
A p′
, p

1.43.4. The R and P operators
Let |ψi be an arbitrary ket of Er and ψ (r) = ψ (x, y, z) the corresponding wave function. We define an operator
X in the form20
ψ′

= X |ψi
such that in the {|ri} representation the associated wave function ψ′ (r) = ψ (x, y, z) is given by
ψ′
(x, y, z) = xψ (x, y, z) (1.186)
so in the {|ri} representation, it corresponds to the operator that multiplies the wave function by x. We should
emphasize however, that the operator X is defined on the Er state space. Eq. (1.186) can be expressed by
hr| X |ψi = hr| ψ′
i = ψ′
(r) = xψ (r) = xhr |ψi
Of course, we can introduce the operators Y and Z in a similar way
hr| X |ψi = xhr |ψi , hr| Y |ψi = yhr |ψi , hr| Z |ψi = zhr |ψi ; |ri = |x, y, zi (1.187)
we can consider X, Y, Z as the “components” of a “vector operator” R, by now it only means a condensed notation
inspired in the fact that x, y, z are the components of the ordinary vector r.
20
The operator X does not belong to ß(Er), because for some square integrable functions ψ (r), the function ψ′
(r) defined in Eq.
(1.186) is not square integrable.
100 CAPÍTULO 1. LINEAR OR VECTOR SPACES
These operators can be easily manipulated in the {|ri} representation. For instance, the element hϕ| X |ψi can
be calculated as
hϕ| X |ψi =
Z
d3
r hϕ| ri hr| X |ψi =
Z
d3
r ϕ∗
(r) x ψ (r)
similarly, we define the operators Px, Py, Pz that forms the “vector operator” P, such that their action in the {|pi}
representation is given by
hp| Px |ψi = pxhp |ψi , hp| Py |ψi = pyhp |ψi , hp| Pz |ψi = pzhp |ψi ; |pi = |px, py, pzi (1.188)
however, when we require to work with both operators simultaneously, we should choose only one basis. Hence,
it is important to know how the operator P acts in the {|ri} representation, and how the operator R acts in the
{|pi} representation.
Let us first look for the way in which the operator P acts in the {|ri} representation. For this, we use Eqs.
(1.181, 1.182, 1.188) to evaluate
hr| Px |ψi =
Z
d3
p hr| pi hp| Px |ψi =
Z
d3
p hr| pipx hp| ψi =

1
2π~
3/2 Z
d3
p eip·r/~
pxψ̄ (p) (1.189)
to evaluate this term we start with the expression of the Fourier transform Eq. (1.185)
ψ (r) =

1
2π~
3/2 Z ∞
−∞
d3
p eip·r/~
ψ̄ (p)
∂ψ (r)
∂x
=

1
2π~
3/2 Z ∞
−∞
d3
p

∂
∂x

eip·r/~

ψ̄ (p)
∂ψ (r)
∂x
=

1
2π~
3/2 Z ∞
−∞
d3
p

i
~
pxeip·r/~

ψ̄ (p)
we have that
~
i
∂ψ (r)
∂x
=

1
2π~
3/2 Z ∞
−∞
d3
p pxeip·r/~
ψ̄ (p) (1.190)
if we continue derivating this expression we find
∂nψ (r)
∂xn
=

1
2π~
3/2 Z ∞
−∞
d3
p

i
~
px
n
eip·r/~

ψ̄ (p)
replacing (1.190) in (1.189) we obtain
hr| Px |ψi =
~
i
∂ψ (r)
∂x
and similarly for Py, Pz. In vector form we summarize it as
hr| P |ψi =
~
i
∇hr |ψi (1.191)
in the {|ri} representation, the operator P coincides with the differential operator acting on the wave functions.
Let us calculate hϕ| Px |ψi in the {|ri} representation
hϕ| Px |ψi =
Z
d3
r hϕ |ri hr| Px |ψi =
Z
d3
r ϕ∗
(r)

~
i
∂
∂x

ψ (r) (1.192)
1.43. THE CONTINUOUS BASES |Ri AND |Pi 101
of great importance are the commutators among the components Pi, Ri. We shall calculate them in the {|ri}
representation, for instance
hr| [X, Px] |ψi = hr| (XPx − PxX) |ψi = hr| (XPx) |ψi − hr| (PxX) |ψi
= hr| X |Pxψi − hr| Px |Xψi = x hr| Pxψi −
~
i
∂
∂x
hr| Xψi
= x hr| Px |ψi −
~
i
∂
∂x
hr| X |ψi =
~
i
x
∂
∂x
hr| ψi −
~
i
∂
∂x
[x hr| ψi]
=
~
i
x
∂
∂x
hr| ψi −
~
i
x
∂
∂x
[hr| ψi] −
~
i
hr| ψi
so that
hr| [X, Px] |ψi = i~ hr| ψi
since this is valid for any ket |ψi and any generalized ket |ri of the basis, we conclude that
[X, Px] = i~I
it is usual to omit the identity operator since it is not important for practical calculations. In a similar way, we
can calculate the other commutators, to condense notation it is convenient to define
R1 ≡ X, R2 ≡ Y, R3 ≡ Z, P1 ≡ Px, P2 ≡ Py, P3 ≡ Pz
to write
[Ri, Rj] = [Pi, Pj] = 0 ; [Ri, Pj] = i~δij (1.193)
they are called canonical commutation relations. These relations are intrinsic and should not depend on the basis
in which we derive them.
We can show that R and P are hermitian operators. For example let us show that X is hermitian
hϕ| X |ψi =
Z
d3
r hϕ |ri hr| X |ψi =
Z
d3
r ϕ∗
(r) x ψ (r) =
Z
d3
r ψ (r)∗
x ϕ (r)
∗
hϕ| X |ψi = hψ| X |ϕi∗
since this is valid for arbitrary kets |ψi and |ϕi, and taking into account Eq. (1.163) we conclude that X = X†.
For Px we see that
hϕ| Px |ψi =
Z
d3
p hϕ |pi hp| Px |ψi =
Z
d3
p ϕ̄∗
(p) px ψ̄ (p) =
Z
d3
p ψ̄ (p)∗
px ϕ̄ (p)
∗
hϕ| Px |ψi = hψ| Px |ϕi∗
and Px = P†
x. The procedure is the same for the other components of R and P
R = R†
, P = P†
There is an alternative proof of the hermiticity of P by using its action in the {|ri} representation given by
Eq. (1.191). Integrating Eq. (1.192) by parts we have
hϕ| Px |ψi =
~
i
Z
dy dz
Z ∞
−∞
dx ϕ∗
(r)

∂
∂x

ψ (r)
=
~
i
Z
dy dz

[ϕ∗
(r) ψ (r)]x=∞
x=−∞ −
Z ∞
−∞
dx ψ (r)
∂
∂x
ϕ∗
(r)
102 CAPÍTULO 1. LINEAR OR VECTOR SPACES
since the scalar product hϕ| ψi is convergent, ϕ∗ (r) ψ (r) approaches zero when x → ±∞. Hence the first term
on the right-hand side vanishes and we find
hϕ| Px |ψi = −
~
i
Z
d3
r ψ (r)
∂
∂x
ϕ∗
(r) =

~
i
Z
d3
r ψ∗
(r)
∂
∂x
ϕ (r)
∗
hϕ| Px |ψi = hψ| Px |ϕi∗
two things deserve attention, first the presence of the i factor is essential because i∂/∂x is hermitian but ∂/∂x is
not. Second, we have used explicitly the fact that |ψi and |ϕi belong to Er by assuming that the scalar product
hϕ| ψi is convergent, so this proof is not valid for generalized kets.
1.43.5. The eigenvalue problem for R and P
Let us calculate the matrix element X (r′, r) of the operator X in the basis {|ri}
X r′
, r

=


r′
X |ri = x′


r′
ri = x′
δ r − r′

= xδ r − r′

= x


r′
ri


r′
Xri = x


r′
ri
so the components of the ket X |ri in the {|r′i} representation are equal to the ones of the ket |ri = |x, y, zi
multiplied by x
X |ri = x |ri
we proceed in the same way for Y and Z
X |ri = x |ri , Y |ri = y |ri , Z |ri = z |ri ; |ri = |x, y, zi
the kets |ri are eigenkets common to X, Y, Z. The set {|ri} of common eigenvectors of X, Y, Z forms a basis
showing that {X, Y, Z} is a complete set of commuting observables. On the other hand, the specification of the
three eigenvalues x0, y0, z0 determines uniquely the “normalized” eigenvector |r0i except for a phase eiθ. In the {|ri}
representation the coordinates of |r0i are δ (x − x0) δ (y − y0) δ (z − z0). Therefore, the set {X, Y, Z} constitutes a
C.S.C.O. in Er.
Analogous reasoning shows that for the commuting observables {Px, Py, Pz} the eigenvalues and eigenvectors
are
Px |pi = px |pi , Py |pi = py |pi , Pz |pi = pz |pi ; |pi = |px, py, pzi
since {|pi} is a basis the operators Px, Py, Pz are observables. Because the set of eigenvalues (p0x, p0y, p0z) deter-
mines uniquely the vector |p0i the set {Px, Py, Pz} constitutes as C.S.C.O. in Er.
It worths pointing out that X is not a C.S.C.O. by itself in the Er state space because when x0 is specified y0
and z0 can take any real values. Therefore, x0 is an infinitely degenerate eigenvalue. Notwithstanding in the state
space Ex of a particle in one dimension, X constitutes a C.S.C.O. since the eigenvalue x0 determines uniquely the
eigenvector |x0i, and its coordinates in the {|xi} representation are given by δ (x − x0).
It can also be shown that the set {X, Py, Pz} constitutes a C.S.C.O. since they commute with each other, and
for a set of eigenvalues {x0, p0y, p0z} there is a unique eigenvector whose associated wave function is
ψx0,p0y,p0z (x, y, z) = δ (x − x0)
1
2π~
ei(p0yy+p0zz)/~
of course, similar C.S.C.O. are built from the sets
{Y, Px, Pz} , {Z, Px, Py}
1.43. THE CONTINUOUS BASES |Ri AND |Pi 103
1.43.6. Some properties of Fourier transforms
We have seen that if a vector |ψi acquires the value ψ (r) in the {|ri} basis, its value ψ (p) in the {|pi} basis
is connected with ψ (r) through a Fourier transform Eqs. (1.184, 1.185)
ψ̄ (p) =

1
2π~
3/2 Z
d3
r e−ip·r/~
ψ (r) (1.194)
ψ (r) =

1
2π~
3/2 Z
d3
p eip·r/~
ψ̄ (p) (1.195)
It can be seen that if ψ depends only on |r| = r, then ψ depends only on |p| = p and is given by
ψ (r) = ψ (r) ⇒ ψ̄ (p) = ψ̄ (p) =
1
√
2π~
2
p
Z ∞
0
r dr sin
pr
~
ψ (r) (1.196)
to see it, let us apply a rotation R to the vector p
p′
≡ Rp
and we use such a rotated vector in Eq. (1.194), taking into account that ψ (r) = ψ (|r|) = ψ (r)
ψ̄ p′

=

1
2π~
3/2 Z
d3
r e−ip′·r/~
ψ (r)
now we use a new (rotated) variable r′ = Rr
ψ̄ p′

=

1
2π~
3/2 Z
d3
r′
e−ip′·r′/~
ψ r′

(1.197)
and we take into account that the length r, the volume element, and the dot product are all conserved under a
rotation
d3
r′
= d3
r ; p′
· r′
= p · r ; ψ r′

= ψ (r)
applying these invariances in Eq. (1.197), we see that
ψ̄ p′

= ψ (p)
since the rotation is arbitrary, it means that ψ only depends on |p| and not on its direction. Therefore, we can
evaluate ψ (p) with Eq. (1.194), by choicing p = puz
ψ (p) =

1
2π~
3/2 Z
d3
r e−ipz/~
ψ (r) =

1
2π~
3/2 Z ∞
0
r2
dr ψ (r)
Z π
0
dθ sin θ e−ipr cos θ/~
Z 2π
0
dϕ
ψ (p) = 2π

1
2π~
3/2 Z ∞
0
r2
dr ψ (r)
Z π
0
dθ sin θ e−ipr cos θ/~
(1.198)
let us evaluate the integral in θ
Z π
0
dθ sin θ e−ipr cos θ/~
=
Z π
0
dθ e− i
2
pr cos θ/~ 2~
ipr

ipr
2~
sin θ e− i
2
pr cos θ/~

=
2~
ipr
Z π
0
dθ e− i
2
pr cos θ/~ d
dθ
h
e− i
2
pr cos θ/~
i
=
2~
ipr
1
2
e−ipr cos θ/~
π
0
(1.199)
=
2~
ipr
1
2

eipr/~
− e−ipr/~

=
2~
ipr
2i
2
Im

eipr/~

=
2~
pr
Im
h
cos
pr
~

+ i sin
pr
~
i
Z π
0
dθ sin θ e−ipr cos θ/~
=
2~
pr
sin
pr
~

(1.200)
104 CAPÍTULO 1. LINEAR OR VECTOR SPACES
substituting Eq. (1.200) in Eq. (1.198) we have
ψ (p) = 2π

1
2π~
3/2 Z ∞
0
r2
dr ψ (r)

2~
pr
sin
pr
~

thus, Eq. (1.196) is obtained.
1.44. General properties of two conjugate observables
Two arbitrary observables Q and P are called conjugate if they obey the conmutation rule
[Q, P] = i~ (1.201)
such couples of observables are frequently encountered in quantum mechanics. The position and momentum
observables are good examples. However, in what follows all properties are derived from the commutation rule
(1.201) regardless the specific form of the operators. Let us define the operator S (λ) that depends on a real
parameter λ as
S (λ) = e−iλP/~
(1.202)
since P is observable and so hermitian this operator is unitary
S†
(λ) = eiλP/~
= S−1
(λ) = S (−λ) (1.203)
since P obviously commute with itself, Eq. (1.149) leads to
S (λ) S (µ) = S (λ + µ) (1.204)
now we calculate the commutator [Q, S (λ)]. To do it, we take into account that [Q, P] = i~ clearly commutes
with Q and P, therefore we can apply theorem 1.70, Eq. (1.136) to obtain
[Q, S (P)] = [Q, P] S′
(P) = i~

−
iλ
~

e−iλP/~
= λS (P)
where we have written S (P) instead of S (λ) to emphasize that when applying Eq. (1.136) we are considering S
as a function of the operator P (so the derivative is with respect to P). Rewriting it in the old notation we have
[Q, S (λ)] = λS (λ) ⇒ QS (λ) − S (λ) Q = λS (λ)
QS (λ) = S (λ) [Q + λ] (1.205)
1.44.1. The eigenvalue problem of Q
Suppose that Q has a non-zero eigenvector |qi, with eigenvalue q
Q |qi = q |qi (1.206)
applying Eq. (1.205) on the vector |qi we have
QS (λ) |qi = S (λ) [Q + λ] |qi = S (λ) [q + λ] |qi
Q [S (λ) |qi] = [q + λ] [S (λ) |qi] (1.207)
therefore, S (λ) |qi is also an eigenvector of Q with eigenvalue q + λ. Note that S (λ) |qi is non-zero because S (λ)
is unitary so the norm of |qi is preserved. On the other hand, since λ can take any real value, we conclude that by
1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 105
starting with an eigenvector of Q, we can construct another eigenvector of Q with any real eigenvalue by applying
the appropiate S (λ). Consequently, the spectrum of Q is continuous and consists of all real values.
Note that this result shows in particular that conjugate operators Q, P cannot exist in finite dimensional vector
spaces since for the latter the spectrum must be finite. Even they do not exist strictly in spaces of denumerable
dimension such as L2, (for which the spectrum must be at most denumerable), so the eigenvectors |qi will form
hyperbasis in L2.
Let us now show that if any given q is non-degenerate, then all the other eigenvalues of Q are also non-
degenerate. For this we assume that the eigenvalue q+λ is at least two-fold degenerate and arrive to a contradiction.
From this hypothesis, there are at least two orthogonal eigenvectors |q + λ, αi and |q + λ, βi associated with the
eigenvalue q + λ
hq + λ, β |q + λ, αi = 0 (1.208)
now consider the two vectors S (−λ) |q + λ, αi and S (−λ) |q + λ, βi from Eq. (1.207) we see that
QS (−λ) |q + λ, αi = [q + λ + (−λ)] S (−λ) |q + λ, αi = qS (−λ) |q + λ, αi
QS (−λ) |q + λ, βi = [q + λ + (−λ)] S (−λ) |q + λ, βi = qS (−λ) |q + λ, βi
so S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two eigenvectors associated with the eigenvalue q. Calculating the
inner product of them
hq + λ, β| S†
(−λ) S (−λ) |q + λ, αi = hq + λ, β |q + λ, αi = 0
where we have used Eq. (1.208) and the fact that S (λ) is unitary. Thus, we arrive to the fact that S (−λ) |q + λ, αi
and S (−λ) |q + λ, βi are two orthogonal (and so linearly independent) eigenvectors associated with q, contradicting
the hypothesis that q is non-degenerate. This result can be extended to find that the eigenvalues of Q must all
have the same degree of degeneracy.
We now look for the eigenvectors. We fix the relative phses of the diffrent eigenvectors of Q with respect to
the eigenvector |0i associated with the eigenvalue 0, by setting
|qi ≡ S (q) |0i (1.209)
applying S (λ) on both sides of (1.209) and using (1.204), we get
S (λ) |qi = S (λ) S (q) |0i = S (λ + q) |0i = |q + λi
and the corresponding bra gives
hq| S†
(λ) = hq + λ|
now using Eq. (1.203) we see that S† (λ) = S (−λ) from which
hq| S (−λ) = hq + λ| ⇒ hq| S (λ) = hq − λ|
where we have replaced λ → −λ in the last step. In summary the action of S (λ) on the eigenvectors |qi of Q are
given by
S (λ) |qi = |q + λi ; hq| S (λ) = hq − λ| (1.210)
now we can characterize the action of the operators P, Q and S (λ) in either the {|qi} basis or the {|pi} basis.
1.44.2. The action of Q, P and S (λ) in the {|qi} basis
Since Q is an observables the set of eigenvectors {|qi} of Q forms a basis. A given ket |ψi in our Hilbert space
can be written in the {|qi} basis as
ψ (q) ≡ hq |ψi
106 CAPÍTULO 1. LINEAR OR VECTOR SPACES
let us calculate the representation of Q |ψi in this basis
hq| Q |ψi = qhq |ψi = qψ (q)
where we have used (1.206) and the hermiticity of Q. The action of Q on |ψi reduces to a simple multiplication
with its associated eigenvalue. The action of S (λ) on |ψi in this basis is also simple
hq| S (λ) |ψi = hq − λ| ψi = ψ (q − λ) ; S (λ) ≡ e−iλP/~
(1.211)
where we have used (1.210). Note that a function f (x − a) is the function that at the point x = x0 + a, takes on
the value f (x0), so that it is the function obtained from f (x)by a translation of +a. Therefore, Eq. (1.211, shows
that the action of S (λ) on |ψi in the basis {|qi} , can be described as a translation of the wave function over a
distance +λ parallel to the q−axis. So S (λ) is usually called the translation operator.
The action of P on |ψi in the {|qi} basis is a bit longer to obtain. Let ε be an infinitesimal quantity such that
S (−ε) = eiεP/~
= I + i
ε
~
P + O ε2

therefore
hq| S (−ε) |ψi = hq|
h
I + i
ε
~
P + O ε2
i
|ψi = hq |ψi + i
ε
~
hq| P |ψi + O ε2

hq| S (−ε) |ψi = ψ (q) + i
ε
~
hq| P |ψi + O ε2

(1.212)
on the other hand, from Eq. (1.211) we have
hq| S (−ε) |ψi = ψ (q + ε) (1.213)
and comparing (1.212) with (1.213) we have
ψ (q + ε) = ψ (q) + i
ε
~
hq| P |ψi + O ε2

⇒
i
ε
~
hq| P |ψi = ψ (q + ε) − ψ (q) − O ε2

solving for hq| P |ψi and taking into account that ε is infinitesimal we have
hq| P |ψi =
~
i
lı́m
ε→0
ψ (q + ε) − ψ (q)
ε
hq| P |ψi =
~
i
d
dq
ψ (q) (1.214)
so the action of P on a ket in the {|qi} basis is that of ~
i
d
dq .
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q
From Eq. (1.214), we can obtain the wave function vp (q) associated in the {|qi} basis, with the eigenvector
|pi of P with eigenvalue p
vp (q) = hq |pi =
1
√
2π~
eipq/~
we can then write
|pi =
1
√
2π~
Z ∞
−∞
dqeipq/~
|qi
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 107
a wave function in the {|pi} representation is given by
ψ̄ (p) = hp |ψi = hp|
Z
|qi hq| ψi =
Z
hp |qi hq| ψi
ψ̄ (p) =
1
√
2π~
Z ∞
−∞
dqeipq/~
ψ (q)
which is the Fourier transform of ψ (q).
It can be shown that the action of the P operator in the {|pi} repesentation is associated with multiplication
by p, while the representation of X corresponds to the operations i~d/dp. Therefore, the results are symmetrical
in the {|qi} and {|pi} bases. It comes from the fact that we can interchange Q and P with no more cost than
changing the sign of the conmutator in (1.201). The analogous of the translation operation in the {|pi} basis is
the operator defined by
T (α) = eiαQ/~
which acts as a translation in the momentum space. The arguments developed for the basis {|qi} can be repeated
in the basis {|pi} by interchanging P by Q and i by −i everywhere. As a matter of curiosity, in Classical Mechanics,
the Hamilton equations are also symmetrical in the conjugate variables (Q, P) and we can interchange them with
no more cost that a change in sign.
We emphasize again that the results obtained in this section only depend on the canonica rule of commutation
(1.201) and not on the explicit form of the Q and P operators.
1.45. Diagonalization of a 2 × 2 hermitian matrix
This example illustrates many concepts introduced in the eigenvalue problem in a quite simple way. Further,
it is useful in many practical calculations involving systems of two states in quantum mechanics. The eigenvalue
problem is very easy but the determination of eigenvectors could lead easily to complicated expressions. We shall
determine the eigenvalues and find the eigenvectors in a way easy to handle.
1.45.1. Formulation of the problem
Consider an hermitian operator R in a two dimensional Hilbert space. Its matrix representation in a given
orthonormal basis {|ϕ1i , |ϕ2i} reads
H ≡

hϕ1| R |ϕ1i hϕ1| R |ϕ2i
hϕ2| R |ϕ1i hϕ2| R |ϕ2i

=

H11 H12
H21 H22

(1.215)
an hermitian operator is described by an hermitian matrix when the basis used is orthonormal. Therefore,
H11 = H∗
11 ; H22 = H∗
22 ; H12 = H∗
21
so that diagonal elements are real. Let us express the matrix in Eq. (1.215) in the equivalent form
H =
 1
2 (H11 + H22) 0
0 1
2 (H11 + H22)

+
 1
2 (H11 − H22) H12
H21 −1
2 (H11 − H22)

H =
1
2
(H11 + H22)

1 0
0 1

+
1
2
(H11 − H22)
1
2H∗
21
(H11−H22)
2H21
(H11−H22) −1
!
H =
1
2
(H11 + H22) I +
1
2
(H11 − H22) K ; K ≡
1
2H∗
21
(H11−H22)
2H21
(H11−H22) −1
!
(1.216)
108 CAPÍTULO 1. LINEAR OR VECTOR SPACES
and I is the identity matrix. Let |ψ±i be two linearly independent eigenvectors of K
K |ψ±i = κ± |ψ±i (1.217)
applying the ket |ψ±i on Eq. (1.216) we have
H |ψ±i =
1
2
(H11 + H22) I |ψ±i +
1
2
(H11 − H22) K |ψ±i
H |ψ±i =
1
2
[(H11 + H22) + (H11 − H22) κ±] |ψ±i
therefore |ψ±i are also eigenvectors of H with eigenvalues
H |ψ±i = E± |ψ±i ; E± ≡
1
2
[(H11 + H22) + (H11 − H22) κ±] (1.218)
note that the problem reduces to find the eigenvectors of K (which coincide with the ones of H) and also its
eigenvalues (which are related with the eigenvalues of H through Eq. 1.218). Solving the problem for K is equivalent
to choose the origin of the eigenvalues in (H11 + H22) /2 = (TrH)/2. Note that this shift is independent of the
basis chosen to write H.
1.45.2. Eigenvalues and eigenvectors of K
For simplicity we define the angles θ, ϕ in terms of the matrix elements Hij as follows
tan θ =
2 |H21|
H11 − H22
, 0 ≤ θ  π (1.219)
H21 = |H21| eiϕ
, 0 ≤ ϕ  2π (1.220)
so ϕ is the argument of the term H21. Matrix K in Eq. (1.216) can be written as
K =
1 2|H21|e−iϕ
(H11−H22)
2|H21|eiϕ
(H11−H22) −1
!
=

1 tan θ e−iϕ
tan θ eiϕ −1

(1.221)
the characteristic equation of matrix (1.221) yields
det [K − λI] = 0 = (1 − κ) (−1 − κ) − tan2
θ ⇒
κ2
− 1 − tan2
θ = 0 ⇒ κ2
= 1 + tan2
θ =
1
cos2 θ
the eigenvalues of K read
κ+ =
1
cos θ
, κ− = −
1
cos θ
(1.222)
and they are real as expected. We can express 1/ cos θ in terms of the matrix elements Hij by using Eqs. (1.219)
and the fact that cos θ and tan θ are both of the same sign since 0 ≤ θ  π.
1
cos θ
=
p
1 + tan2 θ =
s
1 +
4 |H21|2
(H11 − H22)2 =
s
(H11 − H22)2
+ 4 |H21|2
(H11 − H22)2
κ± = ±
1
cos θ
= ±
s
(H11 − H22)2
+ 4 |H21|2
(H11 − H22)2 (1.223)
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 109
let us find the eigenvectors of K. We denote as a and b the components of |ψ+i in the basis {|ϕ1i , |ϕ2i}. From
Eqs. (1.221, 1.222) this eigenvector must satisfy

1 tan θ e−iϕ
tan θ eiϕ −1
 
a
b

=
1
cos θ

a
b

of course only one of the two equations is linearly independent since only quotients between the coefficients can
be determined, therefore
a + b tan θ e−iϕ
=
a
cos θ
⇒ b tan θ e−iϕ
= a

1
cos θ
− 1

multiplying by eiϕ/2 and defining 2α ≡ θ this equation yields
b
sin 2α
cos 2α
e−iϕ/2
= a

1 − cos 2α
cos 2α

eiϕ/2
b sin 2α e−iϕ/2
= a (1 − cos 2α) eiϕ/2
b (2 sin α cos α) e−iϕ/2
= a

1 − 1 − 2 sin2
α

eiϕ/2
2b sin α cos α e−iϕ/2
= 2a sin2
α eiϕ/2
b

cos α e−iϕ/2

= a sin α eiϕ/2
in terms of θ we get
b cos
θ
2
e−iϕ/2
= a sin
θ
2
eiϕ/2
(1.224)
we demand normalization with the additional requirement of positivity for the coefficient a, so we have
|a|2
+ |b|2
= 1 ⇒ |a|2
+
a sin θ
2 eiϕ/2
cos θ
2 e−iϕ/2
2
= 1
|a|2
+
a tan
θ
2
eiϕ
2
= 1 ⇒ |a|2
+ |a|2
tan2 θ
2
= 1
|a|2

1 + tan2 θ
2

= 1 ⇒ |a|2
= cos2 θ
2
so that
a = cos
θ
2
≥ 0 since 0 ≤ θ  π (1.225)
replacing (1.225) in (1.224) we get
b cos
θ
2
e−iϕ/2
= cos
θ
2
sin
θ
2
eiϕ/2
⇒ b = sin
θ
2
eiϕ
so that the eigenvector |ψ+i′
associated with the eigenvalue κ+ reads
|ψ+i′
= a |ϕ1i + b |ϕ2i = cos
θ
2
|ϕ1i + sin
θ
2
eiϕ
|ϕ2i
it is clear that |ψ+i ≡ e−iϕ/2 |ψ+i′
is also an eigenvector of K with the same eigenvalue κ+ and this vector looks
more symmetrical. Thus, we define the eigenvector |ψ+i as21
|ψ+i = cos
θ
2
e−iϕ/2
|ϕ1i + sin
θ
2
eiϕ/2
|ϕ2i (1.226)
21
This is equivalent to define the phase of the coefficient a as −ϕ/2 instead of zero, in the process of normalization.
110 CAPÍTULO 1. LINEAR OR VECTOR SPACES
an analogous calculation gives the eigenvector of K corresponding to κ− = −1/ cos θ
|ψ−i = − sin
θ
2
e−iϕ/2
|ϕ1i + cos
θ
2
eiϕ/2
|ϕ2i (1.227)
the eigenvalues of H are obtained by combining Eqs. (1.218, 1.223)
E± ≡
1
2
[(H11 + H22) + (H11 − H22) κ±]
=
1
2

(H11 + H22) ± (H11 − H22)
s
(H11 − H22)2
+ 4 |H21|2
(H11 − H22)2
#
E± ≡
1
2

(H11 + H22) ±
q
(H11 − H22)2
+ 4 |H21|2

it worths saying that the eigenvalue problem can be solved directly without resorting to the angles θ and ϕ defined
in Eq. (1.219, 1.220). This procedure is advantageous only if we have to calculate the eigenvectors as well.
1.45.3. Eigenvalues and eigenvectors of H
Let us summarize our results. We consider an hermitian operator R in a two dimensional Hilbert space, and
its matrix representation in the orthonormal basis {|ϕ1i , |ϕ2i}
H ≡

hϕ1| R |ϕ1i hϕ1| R |ϕ2i
hϕ2| R |ϕ1i hϕ2| R |ϕ2i

=

H11 H12
H21 H22

(1.228)
its eigenvalues and eigenvectors are given by
E± ≡
1
2

(H11 + H22) ±
q
(H11 − H22)2
+ 4 |H21|2

(1.229)
|ψ+i = cos
θ
2
e−iϕ/2
|ϕ1i + sin
θ
2
eiϕ/2
|ϕ2i (1.230)
|ψ−i = − sin
θ
2
e−iϕ/2
|ϕ1i + cos
θ
2
eiϕ/2
|ϕ2i (1.231)
tan θ =
2 |H21|
H11 − H22
, H21 = |H21| eiϕ
; 0 ≤ θ  π , 0 ≤ ϕ  2π (1.232)
as a matter of consistence we can see that
E+ + E− = H11 + H22 = TrH , E+E− = H11H22 − |H12|2
= det H
in agreement with Eq. (1.93, 1.94). From Eq. (1.229), the spectrum becomes degenerate i.e. E+ = E− when
(H11 − H22)2
+ 4 |H21|2
= 0. That is when H11 = H22 and H12 = H21 = 0. So a 2 × 2 hermitian matrix has a
degenerate spectrum if and only if it is proportional to the identity.
It worths remarking that although functions of θ are expressed simply in terms of the Hij elements by means of
Eqs. (1.232), it is not the case when functions of θ/2 appears. Thus, when we do calculations with the eigenvectors
(1.230, 1.231), it is convenient to keep the results in terms of θ/2 up to the end of the calculation instead of
replacing it in terms of the Hij quantities.
Capı́tulo 2
Construcción fenomenológica de los
postulados de la mecánica cuántica
Nuestro presente entendimiento de la naturaleza requiere reevaluar las leyes de la mecánica clásica, especial-
mente en lo referente a los fenómenos atómicos y subatómicos. No obstante, existen manifestaciones macroscópicas
de los procesos cuánticos. A manera de ejemplo, la existencia misma de los sólidos solo se puede explicar en un
contexto cuántico, y los modelos sobre calor especı́fico de los sólidos no se pueden explicar con un modelo clásico.
A finales del siglo diecinueve, se identificaban en la fı́sica dos tipos de entidades bien diferenciadas: la materia y
la radiación. Las leyes de Newton permitı́an explicar los fenómenos relativos a la materia en la escala macroscópica
y las ecuaciones de Maxwell proporcionaban una excelente descripción de la dinámica de la radiación1. Finalmente,
la interacción de la materia con la radiación la proporcionaba la ley de fuerza de Lorentz. Es notable el hecho
de que la teorı́a de Maxwell habia logrado la unificación de fenómenos que antes se consideraban separados: la
electricidad, el magnetismo y la óptica.
No obstante, a finales del siglo diecinueve y principios del veinte una serie de experimentos condujeron a
reevaluar la estructura fundamental de la materia y además a replantear las leyes que rigen a estas estructuras
fundamentales. La mecánica cuántica es entonces el resultado de estos replanteamientos. Vale decir por supuesto
que al menos en principio, el mundo macroscópico también se rige por la leyes de la cuántica, si bien para la
mayorı́a de fenómenos a escala humana, la Fı́sica clásica representa una descripción mucho más simple y al mismo
tiempo bastante adecuada.
A continuación se realizará una breve descripción de los experimentos que dieron lugar a las nuevas ideas sobre
el mundo microscópico, con el fin de dejar claros los puntos que es necesario reevaluar en la mecánica clásica. La
descripción de estos experimentos no pretende ser completa ni exhaustiva, solo pretende mostrar las ideas que
éstos nos arrojan sobre el comportamiento de la naturaleza a nivel microscópico (atómico y subatómico). Para un
estudio más detallado de estos experimentos el lector puede recurrir a los textos estándar sobre Fı́sica Moderna
(ver por ejemplo Ref. [1]).
2.1. La radiación del cuerpo negro
Un cuerpo negro tiene la capacidad de absorber toda la radiación que incide sobre él, a su vez esto lo convierte
en un emisor perfecto. Utilizando argumentos de la termodinámica y la mecánica estadı́stica, Rayleigh y Jeans
predijeron el espectro del cuerpo negro utilizando la distribución de Boltzmann. Sin embargo, las predicciones de
Rayleigh y Jeans estaban muy lejos del espectro experimental en el régimen de longitudes de onda corta, fenómeno
conocido como la “catástrofe del ultravioleta”. Es bien conocido que la energı́a asociada a una frecuencia particular
de la radiación del cuerpo negro se relaciona con la energı́a de una partı́cula cargada en la pared de una cavidad
del cuerpo negro oscilando sinusoidalmente a la misma frecuencia. Originalmente, Max Planck cuantizó la energı́a
1
Las ondas mecánicas podı́an explicarse en último término con las leyes de Newton.
111
112 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
de la partı́cula oscilante asumiendo que cada una de estas partı́culas solo puede tener una energı́a εn que sea
múltiplo entero de una energı́a fundamental ε0 = hν siendo ν la frecuencia de oscilación y siendo h una constante
universal que se ajusta experimentalmente, por lo tanto
εn = nhν , n = 0, 1, 2, 3, 4, . . . (2.1)
recalculando el espectro con este postulado, Planck pudo reproducir el espectro del cuerpo negro para todas
las longitudes de onda. Posteriormente, Planck observó que esto era equivalente a cuantizar directamente las
ondas electromagnéticas estacionarias asociadas a cada frecuencia y que oscilan sinusoidalmente. De hecho, Planck
generaliza su postulado diciendo que la Ec. (2.1) describe la energı́a total asociada a cualquier entidad fı́sica cuya
única coordenada generalizada efectúa oscilaciones armónicas simples (variaciones sinusoidales en el tiempo).
2.2. El efecto fotoeléctrico
Cuando se hace incidir luz ultravioleta sobre la superficie de un metal, se emiten electrones provenientes de
dicho metal. A principios del siglo XX, Lenard realizó experimentos en donde los electrones extraı́dos con luz
ultravioleta de la superficie metálica (fotocátodo) son acelerados por una diferencia de potencial con respecto a
otro electrodo. Al medir la corriente que llegaba al segundo electrodo como función del voltage entre los electrodos,
observó que todavı́a llegaba corriente incluso cuando el potencial era retardante para cargas negativas indicando
que los electrones son emitidos con energı́a cinética que no es despreciable. La forma de la curva indicó que
no todos los fotoelectrones son emitidos con la misma energı́a cinética pero existe un voltaje retardante de
corte V = −Vmáx luego del cual cesa la fotocorriente. Este voltage de corte sugiere la existencia de una energı́a
máxima bien definida para los fotoelectrones dada por Emáx = eVmáx siendo e la magnitud de la carga electrónica.
Los fotoelectrones de máxima energı́a son los que provienen de la superficie del fotocátodo en tanto que los
fotoelectrones de menor energı́a provienen del interior del fotocátodo y pierden energı́a cinética al llegar a la
superficie, esto nos indica que Emáx es una buena medida de la energı́a transmitida a los electrones en el proceso
fotoeléctrico. Lenard encontró además que la corriente fotoeléctrica es directamente proporcional a la intensidad
luminosa incidente para voltages acelerantes. Sin embargo, observó también que el potencial de corte retardante
V = −Vmáx es independiente de la intensidad luminosa. En consecuencia, la energı́a máxima adquirida por los
electrones es independiente de la intensidad luminosa incidente.
En el marco de la teorı́a clásica, se puede demostrar que la energı́a cinética promedio de los electrones sometidos
a la luz ultravioleta es proporcional al campo eléctrico al cuadrado (asociado a la onda incidente) y por tanto es
proporcional a la intensidad incidente. Esto entra en conflicto directo con el hecho de que la energı́a adquirida por
los electrones de la superficie del fotocátodo sea independiente de la intensidad luminosa. Un problema más serio
surge cuando se intenta calcular el tiempo necesario para que los fotoelectrones adquieran la energı́a suficiente para
llegar al otro electrodo. Este tiempo se estimó en unos ∼ 100seg bajo la hipótesis clásica de que la energı́a luminosa
se distribuye uniformemente sobre frentes de onda esféricos cuyo centro es la fuente. Experimentos posteriores
revelaron que el tiempo de absorción no superaba los ∼ 10−9seg.
Lo anterior llevó a Einstein en 1905 a generalizar el postulado de Planck enunciando que el contenido energético
de una onda electromagnética de frecuencia ν en una fuente de radiación (onda libre) también puede tener solo
valores de la forma nhν siendo n entero no-negativo y ν la frecuencia de la onda que se propaga. Esto implica que
al pasar la fuente de un estado de energı́a nhν a otro de energı́a (n − 1) hν, la fuente emite un paquete de energı́a
electromagnética con energı́a hν. Einstein propuso además que este paquete de energı́a (fotón) está localizado
inicialmente en una pequeña región del espacio y permanece localizado cuando se aleja de la fuente luminosa con
velocidad c, en contraste con la expansión caracterı́stica de un frente de onda clásico. Este paquete o cuanto de
energı́a denominado fotón posee una energı́a ε = hν. Postuló además que en el proceso fotoeléctrico un cuanto era
completamente absorbido por el fotoelectrón.
En primera instancia, el hecho de que el cuanto permaneciera localizado y fuese completamente absorbido
permitı́a que los fotoelectrones absorbieran la energı́a necesaria para formar la fotocorriente de manera casi ins-
tantánea, eliminando la incompatibilidad con el tiempo de absorción que se presentaba con las ondas clásicas.
2.3. EL EFECTO COMPTON 113
Por otro lado, definamos ∆E como la energı́a necesaria para que un electrón pueda llegar al otro electrodo,
esta será igual a la energı́a necesaria para llegar a la superficie, mas la energı́a W necesaria para salir del material
venciendo la fuerzas superficiales atractivas. El mecanismo fotoeléctrico imparte una energı́a hν al fotoelectrón y
si esta energı́a es mayor que ∆E el electrón puede escapar de la superfice del fotocátodo. Es claro que para los
electrones de la superficie ∆E = W de modo que la máxima energı́a cinética con la que llegan los fotoelectrones
al otro electrodo es
Emáx = hν − W
mostrando claramente que tal energı́a máxima es función lineal de la frecuencia de la radiación incidente, pero es
independiente de su intensidad. Estas predicciones fueron corroboradas por Millikan en 1916.
2.3. El efecto compton
En 1923, Compton realizó un experimento en el cual un haz aproximadamente monocromático de rayos X de
longitud de onda λ0, incidı́a en una placa metálica. Compton encontró que la radiación dispersada contenı́a un
pico de intensidad asociado a la longitud de onda λ1  λ0, además del pico asociado a λ0. A la presencia de este
pico en λ1 se le conoce como efecto Compton. En la discusión subsecuente nos concentraremos en la explicación
del pico de intensidad en λ1.
La observaciones mostraban que λ1 aumentaba a medida que se incrementaba el ángulo de dispersión θ, pero
era independiente del material de la lámina metálica. Puesto que λ1 es siempre mayor que λ0, la frecuencia
ν1 = c/λ1 de la radiación dispersada disminuye al aumentar el ángulo θ de dispersión.
Adicionalmente, si asumimos que ν1 es proporcional a la energı́a E1 del cuanto asociado a la radiación (como
lo sugiere el efecto fotoeléctrico), la dependencia de E1 con θ es cualitativamente similar a la dependencia angular
de la energı́a de una partı́cula dispersada por otra partı́cula. Por supuesto esta dispersión debe ser relativista,
puesto que los fotones son eminentemente relativistas.
El procedimiento de Compton fué en consecuencia, combinar la teorı́a de la dispersión clásica relativista entre
particulas con la relación frecuencia energı́a asumida para el cuanto de radiación (fotón) en el efecto fotoeléctrico.
Consideremos entonces un cuanto o paquete localizado asociado a la radiación electromagnética (rayos X en este
caso), en la cual se cumple la relación
E = hν (2.2)
donde además el momento lineal del fotón es p. La energı́a total relativista de una partı́cula de masa en reposo
m0 es
E =
m0c2
q
1 − v2
c2
(2.3)
y dado que la velocidad del fotón es c, su masa en reposo debe ser nula. Por tanto, su energı́a E es totalmente
cinética. Adicionalmente, la relación entre el momento lineal y la energı́a de una partı́cula relativista está dada
por
E2
= p2
c2
+ m0c2
2
(2.4)
puesto que m0 = 0 para el fotón, esta relación se convierte en
p =
E
c
=
hν
c
=
h
λ
(2.5)
Ahora bien, puesto que la frecuencia ν1 donde se obtiene un pico de intensidad (ν1  ν0) de la radiación
dispersada, es independiente del material de la hoja metálica, es razonable suponer que en la dispersión no participa
el átomo completo. En consecuencia, otra de las suposiciones fundamentales de Compton, fué que los fotones se
dispersaban en virtud de las colisiones entre éstos y los electrones libres en la lámina, que están inicialmente en
reposo. Esta suposición es razonable si tenemos en cuenta que un cuanto de rayos X tiene una energı́a mayor
114 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
en varios órdenes de magnitud a la energı́a de un cuanto de luz ultravioleta, y teniendo en cuenta que a su vez
el efecto fotoeléctrico sugiere que la energı́a de un cuanto de luz ultravioleta, es comparable con la energı́a de
ligadura del electrón en el metal.
Consideraremos entonces una colisión entre un fotón y un electrón libre en reposo. Por simplicidad elegimos el
eje X a lo largo del momento lineal incidente p0 del fotón localizado. Denotaremos como (E0, p0) a la energı́a y la
magnitud del momento lineal del fotón incidente, (E1, p1) serán la energı́a y el momento lineal del fotón dispersado
en un ángulo θ (con respecto a X). Finalmente, (T, p) son la energı́a cinética y el momento lineal del electrón
dispersado en un ángulo φ con respecto al eje X. La conservación del momento lineal en X nos dice que
p0 = p1 cos θ + p cos φ (2.6)
y la conservación del momento lineal en Y nos dice que
p1 sin θ = p sin φ (2.7)
elevando al cuadrado ambas ecuaciones se obtiene
(p0 − p1 cos θ)2
= p2
cos2
φ ; p2
1 sin2
θ = p2
sin2
φ
y sumando estas expresiones, obtenemos
p2
0 + p2
1 − 2p0p1 cos θ = p2
(2.8)
por otro lado, aplicando la conservación de la energı́a total relativista antes y después de la dispersión, se tiene
que
E0 + m0c2
= E1 + T + m0c2
⇒
E0 − E1 = T
donde m0 es la masa en reposo del electrón. Aplicando la relación (2.5), que es válida solo para el fotón, se
encuentra que
c (p0 − p1) = T (2.9)
Adicionalmente, aplicando la relación (2.4), al electrón dispersado tenemos que
T + m0c2
2
= p2
c2
+ m0c2
2
⇒ T2
+ 2Tm0c2
= p2
c2
T2
c2
+ 2Tm0 = p2
(2.10)
sustituyendo p2 y T de las Ecs. (2.8, 2.9) en la Ec. (2.10) resulta
c2 (p0 − p1)2
c2
+ 2c (p0 − p1) m0 = p2
0 + p2
1 − 2p0p1 cos θ ⇒ −2p0p1 + 2m0c (p0 − p1) = −2p0p1 cos θ ⇒
m0c (p0 − p1) = p0p1 (1 − cos θ) ⇒
(p0 − p1)
p0p1
=
1
m0c
(1 − cos θ) ⇒

1
p1
−
1
p0

=
1
m0c
(1 − cos θ)
multiplicando por h y usando la relación (2.5) para el fotón, queda finalmente
(λ1 − λ0) = λC (1 − cos θ) ; λC ≡
h
m0c
≃ 0,02426 × 10−8
cm (2.11)
2.4. ESPECTROSCOPÍA, ESTABILIDAD DEL ÁTOMO Y TEORÍA DE BOHR 115
donde λC se denomina la longitud de onda de Compton. La Ec. (2.11) se conoce como ecuación de Compton.
Esta ecuación predice que el aumento en la longitud de onda asociada al segundo pico de resonancia con respecto a
la longitud de onda incidente, depende solamente del ángulo de dispersión y de la constante universal λC, pero es
independiente del material de la hoja metálica y de la longitud de onda incidente. La corroboración experimental
fué realizada por diversos autores tales como Bothe, Wilson, Geiger, y Bless entre los años 1923 y 1927.
Este experimento además de dar una prueba convincente de la existencia del cuanto de radiación (fotón),
muestra que éste puede comportarse como partı́cula en un experimento de dispersión. Vimos anteriormente que
el efecto fotoeléctrico también proporciona evidencia de la existencia de los cuantos, que además se suponen
localizados como las partı́culas. A priori pareciera darse un retroceso a una imagen corpuscular de la radiación. No
obstante, la radiación electromagnética tiene ciertas propiedades como la difracción, que solo puede ser explicada
en términos de movimiento ondulatorio. Esto nos conduce a considerar que en la radiación electromagnética
el comportamiento ondulatorio y corpuscular coexisten, fenómeno que se conoce como dualidad onda-partı́cula.
Experimentos posteriores nos permitirán profundizar sobre esta naturaleza dual en el mundo microscópico.
2.4. El problema espectroscópico, la estabilidad del átomo y la teorı́a de
Bohr
Con el advenimiento del modelo atómico de Rutherford, en el cual el átomo estaba constituı́do por un pequeño
núcleo de carga positiva con la carga negativa (electrones) orbitando en la periferia, surge el problema de la
estabilidad del átomo. Esto debido a que la electrodinámica clásica predice que una carga acelerada radı́a emitiendo
energı́a. Por tanto, los electrones al orbitar deberı́an radiar perdiendo energı́a y provocando el colapso del electrón
hacia el núcleo. El hecho de que la estructura atómica fuese estable constituyó entonces un reto para la Fı́sica de
principios del siglo XX.
Por otra parte, surgı́a el problema de la discretización de los espectros atómicos. No entraremos en detalles sobre
los montajes experimentales para medir estos espectros. Mencionaremos simplemente, que cuando una descarga
eléctrica atraviesa una región que contiene un gas monoatómico las colisiones de los átomos con los electrones
y con otros átomos hacen que los átomos adquieran una energı́a mayor que la normal. Al regresar a su estado
normal, los átomos liberan la energı́a excedente en forma de radiación electromagnética, la cual está compuesta
por ondas de diferente longitud de onda. La observación de estas longitudes de onda que componen a la radiación
(lı́neas espectrales) mostró que la radiación electromagnética emitida por un átomo libre consiste solo de ciertas
longitudes de onda, es decir el espectro es discreto2. Adicionalmente, se observó que cada tipo de átomo tiene
su propio espectro, es decir un conjunto caracterı́stico de longitudes de onda, hecho que es de gran importancia
práctica.
Ahora bien, el espectro del átomo de Hidrógeno es relativamente simple en virtud de la simplicidad de su
estructura atómica. En dicho espectro se observa que la distancia en longitudes de onda de dos lı́neas contiguas
decrece al disminuir la longitud de onda de las lı́neas hasta llegar a una lı́nea lı́mite de convergencia que denotamos
por λ∞ = 3645,6 A. La regularidad y simplicidad de este espectro llevó a buscar fórmulas empı́ricas que revelaran
el patrón de longitudes de onda del espectro de emisión. Adicionalmente, se observó que la estructura de las lı́neas
espectrales para átomos alcalinos (con un solo electrón en la capa externa), obedece a un patrón similar. Después
de muchos análisis se encontró que en términos del número de onda k = λ−1 la fórmula empı́rica
k = R

1
(m − a)2 −
1
(n − b)2

describı́a muy bien la distribución de lı́neas espectrales de los átomos alcalinos, donde R, a y b son constantes
propias del elemento, en tanto que m y n son enteros positivos. La constante R es conocida como constante de
2
Esto contrasta por ejemplo, con el espectro contı́nuo de la radiación electromagnética emitida por la superficie de los sólidos a alta
temperatura.
116 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
Rydberg. Para el átomo de Hidrógeno en particular, se tiene que a = b = 0 y R ≡ RH = 109677,576 cm−1 y se
escribe
k = RH

1
m2
−
1
n2

, n  m (2.12)
las series de números de onda fueron clasificadas de acuerdo a valores fijos de m. Hablamos entonces de la serie
de Lyman (m = 1), serie de Balmer (m = 2), Paschen (m = 3), Brackett (m = 4) y Pfund (m = 5).
Hemos descrito el espectro de emisión. No obstante, también existe el espectro de absorción, para el cual
se usa una fuente que emite un espectro contı́nuo cuya radiación se hace incidir sobre un recipiente de vidrio que
contiene el gas monoatómico que se desea investigar. Al medir el espectro que emite el gas monoatómico después
de haber absorbido la radiación contı́nua, se observa que el espectro es contı́nuo pero faltan algunas lı́neas muy
especı́ficas, y que corresponden a las lı́neas del espectro que han sido suprimidas del espectro contı́nuo emitido
por la fuente, y que debieron ser absorbidas por los átomos del gas. Se observó que para cada elemento, a cada
lı́nea del espectro de absorción le corresponde una lı́nea en el espectro de emisión, pero lo recı́proco no es cierto:
solo ciertas lı́neas de emisión se manifiestan en el espectro de absorción. En el espectro de absorción del átomo de
Hidrógeno, normalmente solo aparecen las lı́neas correspondientes a la serie de Lyman; pero cuando el gas está a
muy alta temperatura (por ejemplo en la superficie de una estrella), se observan las lı́neas de la serie de Balmer
en el espectro de absorción.
2.4.1. La teorı́a de Bohr
Los postulados que describiremos a continuación, enunciados por Niels Bohr en 1913, permitieron dar cuenta
razonablemente de los siguientes fenómenos: (a) La estabilidad del átomo, (b) La naturaleza discreta de los
espectros de emisión y absorción, (c) La descripción especı́fica del espectro del átomo de Hidrógeno, (d) La
diferencia entre el espectro de absorción y el de emisión. Tales postulados fueron los siguientes:
1. En el átomo, un electrón se mueve en una órbita circular alrededor del núcleo, bajo la influencia de la
interacción coulombiana entre el núcleo y el electrón, y obedeciendo a las leyes de la mecánica clásica.
2. De la infinidad de órbitas clásicamente permitidas, el electrón solo puede moverse en aquellas para las cuales
el momento angular orbital L es un multiplo entero de la cantidad ~ ≡ h/2π. Esto es
L = n~ = nh/2π , n = 1, 2, 3, . . . (2.13)
3. A pesar de que el electrón está en permanente aceleración, se mueve en una órbita permitida sin radiar
energı́a electromagnética, de modo que su energı́a total E, permanece constante.
4. Un electrón emite energı́a electromagnética, solo cuando se mueve de una órbita permitida (con energı́a Ei)
a otra órbita permitida (con energı́a Ef ), de manera discontı́nua. La frecuencia de la radiación permitida
está dada por
ν =
Ei − Ef
h
(2.14)
Con estos postulados, Bohr da cuenta de la estabilidad del átomo e introduce la cuantización del momento
angular, en contraste con los postulados de cuantización antes descritos, los cuales involucran la cuantización de
la energı́a.
Nótese que el cuarto postulado Ec. (2.14) está ı́ntimamente relacionado con el postulado de Einstein, ya que
E = Ei − Ef es la energı́a del cuanto (fotón) que se emite, y por tanto E = hν.
2.4. ESPECTROSCOPÍA, ESTABILIDAD DEL ÁTOMO Y TEORÍA DE BOHR 117
2.4.2. Predicciones de la teorı́a de Bohr para átomos con un electrón
Vamos a estudiar el caso de un átomo de masa M y carga +Ze, con un electrón de masa m y carga −e. Este
es el caso del Hidrógeno (Z = 1), el helio ionizado He+ (Z = 2), el litio doblemente ionizado Li++(Z = 3), etc.
Supongamos que el electrón se mueve en trayectoria circular alrededor del núcleo. Por simplicidad, asumiremos
que el núcleo permanece fijo en un sistema de referencia inercial, lo cual es razonable teniendo en cuenta que la
masa del núcleo es mucho mayor que la del electrón. La condición de estabilidad de esta órbita circular es que la
fuerza coulombiana iguale a la fuerza centrı́peta necesaria para mantener la trayectoria circular.
Ze2
r2
= m
v2
r
(2.15)
siendo v la rapidez del electrón y r el radio del cı́rculo. El momento angular está dado por
L = mvr
aplicando la condición de cuantización Ec. (2.13), se tiene que
mvr = n~ ⇒ v =
n~
mr
, n = 1, 2, 3, 4, . . . (2.16)
y sustituyendo esta rapidez en la Ec. (2.15) queda
Ze2
= mrv2
= mr
n2~2
m2r2
=
n2~2
mr
despejando r vemos que el radio estarı́a también cuantizado
r =
n2~2
mZe2
; n = 1, 2, 3, 4, . . . (2.17)
reemplazando (2.17) en (2.16) tenemos
v =
n~
m
1
r
=
n~
m
mZe2
n2~2
=
Ze2
n~
; n = 1, 2, 3, 4, . . . (2.18)
vemos que tanto la velocidad como el radio están cuantizados como consecuencia de la cuantización del momento
angular. Similarmente es fácil ver que los postulados de Bohr también conducen a la cuantización de la energı́a.
Para verlo, tendremos en cuenta que la energı́a potencial coulombiana está dada por
V = −
Ze2
r
donde el menos se debe a la naturaleza atractiva de la interacción. Por otro lado, la energı́a cinética (no-relativista)
se puede calcular empleando la Ec. (2.15)
T =
1
2
mv2
=
Ze2
2r
(2.19)
sumando estas dos energı́as y empleando la Ec. (2.17) la energı́a total queda
E = T + V = −
Ze2
2r
= −T = −
Ze2
2
mZe2
n2~2
E = −
mZ2e4
2n2~2
; n = 1, 2, 3, 4, . . . (2.20)
cuando se calcula el radio de la órbita menor (n = 1), empleando los valores numéricos apropiados (con Z = 1)
en la Ec. (2.17) se obtiene
r0 =
~2
me2
≡ a0 ≈ 0,53 × 10−10
m (2.21)
118 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
es claro de la Ec. (2.17) que este es el menor radio posible. Adicionalmente, este valor concuerda de forma
razonable con las predicciones para el modelo atómico de Rutherford. Ası́ mismo, la Ec. (2.20) nos dice que
cuando n = 1 obtenemos el estado de menor energı́a, de modo que n = 1 corresponde al estado base o estado
normal del átomo de Hidrógeno. El valor del radio para este estado de menor energı́a se denomina radio de
Bohr. Finalmente, la velocidad del electrón es máxima cuando n = 1 como se aprecia en la Ec. (2.18). Tomando
Z = n = 1 y los valores numéricos apropiados en la Ec. (2.18) esta velocidad está dada por
v ≈ 2,2 × 106
m/seg  0,01c
como esta velocidad es menos del uno por ciento de la velocidad de la luz, se espera que una descripción no-
relativista sea adecuada, esto es además consistente con la suposición no-relativista dada en la Ec. (2.19). Sin
embargo, la descripción no-relativista deja de ser adecuada para valores grandes de Z.
Por otra parte, se observa que al incrementarse el número cuántico a partir del estado base n = 1, la energı́a
se hace menos negativa, y por tanto se incrementa. Claramente, E = 0 es una energı́a lı́mite (asociada a n → ∞),
y los estados de energı́a se aproximan arbitrariamente a E = 0 cuando n crece. En consecuencia, los estados
permitidos son todos de energı́a negativa. Esto se debe a que energı́as mayores que cero, corresponden a electrones
libres que ya no están ligados al átomo, y en estado libre la energı́a de los electrones corresponde a un espectro
contı́nuo. Es de enfatizar sin embargo, que la teorı́a de Bohr solo nos habla de electrones ligados a un átomo.
Queda entonces por calcular las frecuencias permitidas para la radiación emitida, para lo cual apelamos al
cuarto postulado Ec. (2.14) que combinado con la Ec. (2.20) conduce a
ν =
Ei − Ef
h
=
mZ2e4
4π~3

1
n2
f
−
1
n2
i
#
(2.22)
que en términos del número de onda k = λ−1 = ν/c nos da
k = RH

1
n2
f
−
1
n2
i
#
; RH ≡
me4
4πc~3
Z2
(2.23)
expresión que coincide con la fórmula empı́rica (2.12), en donde una evaluación numérica de la constante RH
en la Ec. (2.23), coincidia razonablemente con el valor numérico que se habı́a obtenido empı́ricamente RH ≃
109677,576 cm−1. La teorı́a de Bohr nos dice entonces que existe una energı́a asociada al estado base o de mı́nima
energı́a para el electrón, que corresponde a n = 1. En una descarga eléctrica el átomo puede absorber energı́a y
generar una transición a un estado de energı́a mayor o estado excitado con n  1. Una vez excitado, el átomo
emitirá este exceso de energı́a para regresar al estado base. En general, esta desexcitación se logra mediante una
serie de transiciones en las que el electrón pasa sucesivamente por estados de energı́a cada vez más baja hasta llegar
al estado base. En cada transición se emitirá radiación electromagnética con frecuencias dadas por la Ec. (2.22).
Por ejemplo, un electrón puede ser excitado al estado con n = 6, y pasar sucesivamente por los estados n = 4, 2, 1
emitiendo tres lı́neas del espectro atómico, con frecuencias dadas por (2.22). En la infinidad de excitaciones y
desexcitaciones de todos los átomos que se efectúan en la medida del espectro de emisión, se presentan todas las
transiciones posibles y por tanto se exhibe el espectro completo.
Estas predicciones fueron corroboradas experimentalmente para el hidrógeno (Z = 1) y para el He+ (Z = 2).
Ası́ mismo, la teorı́a puede explicar el espectro de absorción para átomos con un electrón. Ya que solo ciertas
transiciones son posibles, el átomo solo absorberá cantidades discretas de energı́a de la radiación incidente. La
radiación incidente consiste de haces de cuantos de todas las frecuencias, en donde solo los fotones con frecuencias
dadas por (2.22) pueden ser absorbidos. No obstante, los átomos en general están inicialmente en el estado base
n = 1, de manera que solo pueden presentarse procesos de absorción de n = 1 a n  1, razón por la cual se
observarán normalmente solo las lı́neas asociadas a la serie de Lymann en el caso del Hidrógeno. Cuando el gas
está a una temperatura elevada, es posible que algunos átomos estén inicialmente en el primer estado excitado
n = 2 de modo que también serán observables las lı́neas de la serie de Balmer. La temperatura necesaria para
2.5. LAS REGLAS DE CUANTIZACIÓN DE WILSON Y SOMMERFELD 119
que exista una población razonable de átomos en el estado n = 2 se puede calcular utilizando la estadı́stica de
Boltzmann, vemos que una fracción 1/e de los átomos estará en el estado n = 2 para temperaturas del orden
de 105K, temperatura tı́pica de algunas superficies estelares. En consecuencia, la teorı́a de Bohr puede también
explicar la diferencia entre el espectro de absorción y el de emisión.
Todas las predicciones de la teorı́a de Bohr, se ajustan aún mejor cuando se tiene en cuenta la corrección de
que la masa nuclear es finita y se realiza la reducción del problema de dos cuerpos al problema de un cuerpo con
masa igual a la masa reducida del sistema (ver sección 12.1). Posteriormente, la cuantización de los estados de
energı́a de los electrones en el átomo fué corroborada por los experimentos de Franck y Hertz.
2.5. Las reglas de cuantización de Wilson y Sommerfeld
En las descripciones anteriores, vemos que las cuantizaciones introducidas hasta el momento obedecen a pro-
blemas fenomenológicos a priori diferentes y cada proceso de cuantización se ha introducido para cada fenómeno
especı́fico. Las reglas de cuantización de Wilson y Sommerfeld constituyen un intento de unificar al menos par-
cialmente estos diversos postulados de cuantización.
Una primera observación es el hecho de que la cuantización de la energı́a de Planck está asociada a oscila-
dores armónicos y la de Bohr está asociada a órbitas circulares regulares. Es decir, ambas están asociadas a un
movimiento periódico. En mecánica clásica, los movimientos periódicos son particularmente transparentes en la
formulación de Hamilton-Jacobi de la mecánica clásica, particularmente en la variante conocida como variables
acción-ángulo. Por esta razón, la formulación que veremos a continuación está basada en el formalismo de las
variables acción ángulo.
La regla de cuantización de Wilson y Sommerfeld se enuncia de la siguiente manera: Sea q una coordenada
generalizada de un sistema fı́sico que varı́a periódicamente con el tiempo, y sea pq su momento canónicamente
conjugado. Este par de variables canónicas q y pq obedecen a la siguiente regla de cuantización
I
pq dq = nqh (2.24)
siendo nq un número cuántico entero y la integral cerrada se efectúa sobre un periodo de movimiento. Nótese
que el producto de una coordenada generalizada por su momento conjugado siempre tiene unidades de momento
angular, y por eso la cuantización está directamente relacionada con la constante de Planck, la cual tiene unidades
de momento angular. Veremos que la cuantización de Bohr y de Planck surgen como casos especiales de esta regla
de cuantización, y que además permite ampliar el dominio de la mecánica cuántica.
Sin embargo, es necesario aclarar que la regla de Wilson y Sommerfeld no puede explicar la cuantización de
Einstein o Compton, puesto que en estos casos los cuantos son esencialmente libres y no poseen un movimiento
periódico.
2.5.1. El átomo de Bohr bajo las reglas de Wilson y Sommerfeld
Retomemos el átomo de Bohr con un electrón de masa m en una órbita circular de radio r0 con velocidad
constante. Usaremos la coordenada generalizada θ (la coordenada r no es independiente de modo que no se
incluye como coordenada generalizada), la coordenada θ es claramente periódica si consideramos que la rapidez
del electrón es uniforme. El momento canónicamente conjugado a θ es el momento angular orbital L = mr2
0θ̇, y
dado que θ̇ = cte por ser periódico el movimiento, vemos que el momento angular es una constante de movimiento.
Al aplicar la regla de cuantización (2.24) a q = θ y pq = L tenemos
I
L dθ = 2πL = nqh ⇒ L =
nh
2π
= n~
que reproduce la regla de cuantización de Bohr.
120 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
2.5.2. Cuantización de Planck con las reglas de Wilson y Sommerfeld
Consideremos un oscilador armónico simple de masa m, frecuencia angular ω = 2πν y amplitud x0. La
coordenada generalizada x es periódica y viene dada por3
x = x0 sin 2πνt = x0 sin ωt
el momento canónicamente conjugado a x es p = mẋ, de modo que
p = mx0ω cos ωt (2.25)
y la regla de cuantización (2.24) nos da
I
p dx = mx0ω
I
cos ωt dx = nh (2.26)
para poder evaluar esta integral debemos expresar cos ωt en función de x
x2
= x2
0 sin2
ωt = x2
0 1 − cos2
ωt

⇒ cos2
ωt =
x2
0 − x2
x2
0
cos ωt = ±
p
x2
0 − x2
x0
(2.27)
es claro que el signo de cos ωt (que es el signo del momento p de acuerdo con la Ec. 2.25), viene dado por el sentido
instantáneo de movimiento. Vamos a expresar el movimiento periódico completo partiendo del origen hacia la
derecha y llegando de nuevo al origen desde la izquierda. En la primera etapa desde cero hasta x0, la velocidad (y
por tanto cos ωt) es positiva. Desde x0 hasta cero cos ωt es negativo, al igual que desde cero hasta −x0. Finalmente
cos ωt ≥ 0 en el intervalo desde −x0 hasta cero. Tenemos entonces
I
cos ωt dx =
Z x0
0
|cos ωt| dx +
Z 0
x0
(− |cos ωt|) dx +
Z −x0
0
(− |cos ωt|) dx +
Z 0
−x0
|cos ωt| dx
=
Z x0
0
|cos ωt| dx +
Z x0
0
|cos ωt| dx −
Z −x0
0
|cos ωt| dx −
Z −x0
0
|cos ωt| dx
= 2
Z x0
0
p
x2
0 − x2
x0
dx − 2
Z −x0
0
p
x2
0 − x2
x0
dx
donde hemos usado la Ec. (2.27) en el último paso. Haciendo x′ = −x en la segunda integral se tiene
I
cos ωt dx = 2
Z x0
0
p
x2
0 − x2
x0
dx − 2
Z x0
0
p
x2
0 − x′2
x0
−dx′

y siendo x′ variable muda, ambas integrales son idénticas de modo que
I
cos ωt dx = 4
Z x0
0
p
x2
0 − x2
x0
dx =
4
x0

x
p
x2
0 − x2
2
+
x2
0
2
arcsin
x
x0
#x0
0
= 2x0 (arcsin 1 − arcsin 0) = πx0
con lo cual la integral en (2.26) queda
I
p dx = πmωx2
0 =
2π
ω
mω2x2
0
2
=
1
ν
mω2x2
0
2
ahora bien, recordando que la energı́a total del oscilador armónico es igual a la energı́a potencial máxima E =
(1/2) mω2x2
0 (ya que en la posición de máxima elongación no hay energı́a cinética), y usando la regla de cuantización
(2.26), tenemos que I
p dx =
E
ν
= nh ⇒ E = nhν
que es la regla de cuantización de Planck.
3
Naturalmente puede haber una fase, pero esto no es relevante para nuestros propósitos.
2.5. LAS REGLAS DE CUANTIZACIÓN DE WILSON Y SOMMERFELD 121
2.5.3. La teorı́a relativista de Sommerfeld y la estructura fina del átomo de Hidrógeno
Por medio de espectrómetros de gran resolución, fué posible determinar que los átomos poseen una estructura
fina en su espectro. En particular, la estructura fina del átomo de Hidrógeno poseı́a una separación en componentes
de una misma lı́nea espectral, unas 104 veces menor que la separación entre lı́neas espectrales (en términos de
número de onda). Basado en la cuantización de Wilson y Sommerfeld, el último de éstos adicionó un postulado
de la siguiente forma: Lo que se suponı́a como un solo estado del átomo de Hidrógeno, consiste en realidad de
varios estados de energı́as aproximadamente iguales, asociados a órbitas elı́pticas de diferente excentricidad. Sin
embargo, el movimiento se sigue considerando periódico, de modo que las reglas de cuantización de Wilson y
Sommerfeld permanecen válidas.
En primer lugar, Sommerfeld evaluó las consecuencias de este postulado adicional en términos de la regla de
cuantización de Wilson y Sommerfeld en el marco de la mecánica clásica no-relativista. Utilizando coordenadas
polares r y θ, y teniendo en cuenta que r ya no es constante, entonces r y θ se considerarán coordenadas generali-
zadas con sus momentos canónicamente conjugados. Por tanto, habrá dos condiciones de cuantización, a diferencia
del caso de órbita circular en el cual hay solo una. Puesto que pr = mṙ las condiciones de cuantización quedan en
la forma I
L dθ = nθh ;
I
prdr = nrh
la primera condición nos provee de la regla de cuantización ya conocida del momento angular
L = nθ~ , nθ = 1, 2, 3, . . .
en tanto que la segunda condición de cuantización queda en la forma
L
a
b
− 1

= nr~ , nr = 0, 1, 2, 3, . . .
siendo a y b los semiejes mayor y menor de la elipse respectivamente.. La relación de estabilidad de la órbita
elı́ptica análoga a la Ec. (2.15) para órbita circular, conduce a las relaciones de cuantización para los semiejes y
la energı́a de los electrones en las órbitas elı́pticas
a =
n2~2
µZe2
, b = a
nθ
n
, E = −
µZ2e4
2n2~2
; n ≡ nθ + nr , n, nθ = 1, 2, 3, . . . (2.28)
donde µ es la masa reducida del electrón (es decir ya se tuvo en cuenta el efecto de masa finita del núcleo). El número
cuántico n se denomina número cuántico principal, puesto que la energı́a de los estados (en aproximación no-
relativista) solo depende de él. Por otro lado, nθ se conoce como número cuántico azimutal. Obsérvese que
el semieje mayor coincide con el radio de la órbita circular de Bohr, como se observa al comparar la primera de
las Ecs. (2.28) con la Ec. (2.17). Adicionalmente, la segunda de las Ecs. (2.28) muestra que la forma de la elipse
está determinada por el cociente nθ/n. Cuando n = nθ, las órbitas son cı́rculos de radio a y nos reducimos a las
órbitas de Bohr. Es fácil ver que para un n fijo, hay n valores diferentes para el número cuántico azimutal nθ. En
consecuencia, hay n órbitas elı́pticas (una de ellas es circular) asociadas a un mismo valor de la energı́a (la cual
solo depende de n), se dice entonces que las órbitas posibles para un n dado están degeneradas.
Por otra parte, el estimativo del orden de magnitud de la velocidad máxima de un electrón en una órbita
de Bohr, nos dió que v/c ≃ 10−2. Esto implicarı́a que la corrección relativista a la energı́a total, debida a la
variación relativista de la masa electrónica sea del orden de (v/c)2
≃ 10−4, que a su vez es el orden de magnitud
de separación entre componentes de la misma lı́nea espectral (con respecto a la separación de las lı́neas). Esto
sugiere que la degeneración pueda removerse aplicando la corrreción relativista al modelo. Una vez hechas tales
consideraciones, Sommerfeld encontró la siguiente expresión para la energı́a total de un electrón que se mueve en
una órbita elı́ptica caracterizada por los números cuánticos n y nθ
E = −
µZ2e4
2n2~2

1 +
α2Z2
n

1
nθ
−
3
4n
122 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
donde la constante adimensional α se define como
α ≡
e2
~c
≃
1
137
la dependencia con nθ de la corrección relativista, introduce la remoción de la degeneración necesaria para explicar
la estructura fina del átomo de Hidrógeno. No obstante, existı́an algunas transiciones que no se observaban
experimentalmente. Por ejemplo, una transición del estado (n, nθ) = (3, 2) al estado (1, 1) es posible. Pero la
transición del estado (3, 3) al estado (1, 1) no se observa en un solo paso. Sin embargo, la última transición (que
nos lleva al estado base) se puede hacer en dos transiciones directas que sı́ están permitidas: (3, 3) → (2, 2) → (1, 1).
Las observaciones experimentales nos llevan a la siguiente regla de selección: Una transición entre dos estados
caracterizados por los números cuánticos (ni, nθi
) y nf , nθf

solo es posible si se cumple la condición
nθi
− nθf
= ±1
esta regla de selección debe ser postulada por aparte en la teorı́a relativista de Sommerfeld.
2.6. Los postulados de De Broglie
Los modelos de Einstein y Compton sugerı́an que la radiación (fotones) podı́a tener comportamiento de partı́cu-
la. Esencialmente, la naturaleza corpuscular de la radiación se manifiesta en la interacción radiación materia (al
menos a nivel microscópico), en tanto que el patrón ondulatorio se manifiesta en la forma en que la radiación se
propaga.
Ahora bien, si la radiación puede tener comportamiento corpuscular, es natural apelar a un principio de
simetrı́a y preguntarse si las partı́culas (la materia) pueden exhibir comportamiento ondulatorio. Este principio
de simetrı́a fué el que introdujo de Broglie en 1924. Puesto que el comportamiento ondulatorio de las partı́culas
no se habı́a observado, era necesario que las predicciones sobre la longitud de la onda asociada a la partı́cula (que
De Broglie llamó onda piloto), fuesen mucho menores que todas las dimensiones tı́picas de la mayorı́a de objetos
materiales.
Para estimar la longitud de las ondas piloto asociadas a una partı́cula, De Broglie supuso que la relación entre
la energı́a total relativista E y la frecuencia ν de esta onda, era idéntica a la relación de Einstein para la radiación
electromagnética
ν =
E
h
(2.29)
y que la longitud de onda λ se puede calcular con la relación usual entre λ, ν y la velocidad w de propagación de
la onda
λ =
w
ν
(2.30)
para la radiación electromagnética w = c, y por tanto
λ =
c
ν
=
hc
E
(2.31)
adicionalmente, la Ec. (2.5) nos dice que el momento lineal de un fotón es p = E/c, de modo que λ queda en la
forma
λ =
h
p
(2.32)
En sı́ntesis, De Broglie postuló que las Ecs. (2.32, 2.29), que hasta aquı́ eran válidas solo para fotones, también
nos dan la longitud de onda y la frecuencia de las ondas piloto asociadas a una partı́cula de momento lineal p y
energı́a relativista E, de modo que
λ =
h
p
; ν =
E
h
(2.33)
2.6. LOS POSTULADOS DE DE BROGLIE 123
nótese que la derivación de la Ec. (2.32) provino de hacer w = c en la Ec. (2.30), lo cual no es válido para partı́culas
con masa diferente de cero, al menos si suponemos que la velocidad de la onda está relacionada con la velocidad
de la partı́cula. Sin embargo, la relación (2.32) es independiente de la velocidad de la onda y fué la relación que
De Broglie extrapoló para partı́culas.
2.6.1. Propiedades de las ondas piloto
Es de esperarse que la velocidad de la onda piloto sea la velocidad de la partı́cula, o al menos que haya una
relación simple entre las dos. Combinando las Ecs. (2.30, 2.33) vamos a calcular la velocidad de propagación w de
las ondas piloto asociadas a la partı́cula
w = νλ =
E
h
h
p
=
E
p
(2.34)
y utilizando la expresión para la energı́a total relativista tenemos
w =
q
c2p2 + (m0c2)2
p
=
c
q
p2 + (m0c)2
p
w = c
s
1 +

m0c
p
2
(2.35)
observamos que w es mayor que c. No obstante, esto no supone una contradicción ya que w está asociado a
Figura 2.1: Apariencia de una onda piloto, asociada a una partı́cula. Puesto que suponemos que una partı́cula está
localizada, su paquete de onda asociado debe estar también localizado. El perfil ψ (x, t) del paquete, se dibuja aquı́
para una configuración instantánea evaluada en t = t0.
la velocidad de fase de las ondas piloto. Es de esperarse que el perfil instantáneo de una onda piloto tenga una
apariencia similar a la mostrada en la Fig. 2.1. Es decir, la onda piloto debe tener un valor distinto de cero solo
en cierta vecindad espacial, ya que es lógico que la localización de la onda piloto esté asociada a la localización
de la partı́cula. Para formar un pulso de ondas como el de la Fig. 2.1 es necesario superponer un número infinito
de ondas monocromáticas, constituyendo un paquete de ondas. Para dicho paquete, debe distinguirse entre la
velocidad de fase w y la velocidad de grupo wg, del paquete4. Es posible demostrar que estas velocidades vienen
4
Las caracterı́sticas de un paquete de ondas, su velocidad de fase y de grupo, serán consideradas en detalle en las secciones 2.11 y
2.13.
124 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
dadas por
w =
ν
k
; wg =
dν
dk
además, es la velocidad de grupo la que no debe superar a la velocidad de la luz, es decir la que está asociada a
los fenómenos de transporte. Calculemos entonces la velocidad de grupo de las ondas piloto de una partı́cula en
movimiento. Partimos de las Ecs. (2.33)
ν =
E
h
; k ≡
1
λ
=
p
h
por tanto
dν =
dE
h
; dk =
dp
h
wg =
dν
dk
=
dE
dp
(2.36)
utilizando de nuevo la expresión relativista de la energı́a, tenemos
E2
= c2
p2
+ m0c2
2
⇒ 2E dE = 2pc2
dp
⇒
dE
dp
= c2 p
E
(2.37)
reemplazando (2.37) en (2.36) se tiene
wg = c2 p
E
(2.38)
y teniendo en cuenta las expresiones relativistas
E = m0γc2
, p = m0γvp ; γ ≡
1
q
1 −
v2
p
c2
(2.39)
donde vp es la velocidad de la partı́cula y m0 su masa en reposo. Sustituyendo (2.39) en (2.38), se obtiene
wg = c2 m0γvp
m0γc2
= vp (2.40)
de modo que la velocidad de grupo, que es la que contiene las propiedades de propagación de la onda, es igual a la
velocidad de la partı́cula, mostrando la consistencia de los postulados de De Broglie. Por otro lado, las Ecs. (2.34,
2.38) nos dicen la relación que hay entre la velocidad de fase y la velocidad de grupo (o velocidad de la partı́cula)
w =
c2
wg
=
c2
vp
nótese que si usáramos las Ecs. (2.31, 2.29), en lugar de las Ecs. (2.32, 2.29) obtendrı́amos
w =
ν
k
= νλ =
E
h
hc
E
= c ; wg =
dν
dk
=
dE/h
dE/hc
= c
relación que solo es válida para cuantos que se mueven a la velocidad de la luz. Ya habı́amos enfatizado que la
Ec. (2.32) se obtenı́a usando w = c en la Ec. (2.30), lo cual solo era válido para la radiación. Sin embargo, la Ec.
(2.32) era independiente de la velocidad, y por esa razón se podı́a extrapolar a partı́culas materiales. En contraste,
la Ec. (2.31) depende explı́citamente de la velocidad c, y no puede ser extrapolada directamente.
2.6. LOS POSTULADOS DE DE BROGLIE 125
2.6.2. Corroboración experimental de los postulados de De Broglie
Para poder medir experimentalmente la longitud de la onda piloto asociada a una partı́cula, debemos encontrar
un sistema para el cual λ = h/p sea del orden de magnitud de las dimensiones caracterı́sticas de dicho sistema.
Consideremos primero una partı́cula de polvo con radio tı́pico r y densidad ρ que se mueve con una velocidad no
relativista v. Utilizando valores tı́picos tomaremos
r = 10−4
cm , ρ = 10gr/cm3
, v = 1cm/seg , h = 6,62 × 10−27
erg − seg
de modo que
p = mv =
4
3
πr3
ρv ≃ 4 × 10−11
gr − cm − seg−1
λ =
h
p
=
6,62 × 10−27gr − cm2 − seg−2 − seg
4 × 10−11gr − cm − seg−1
≃ 1,6 × 10−16
cm
esta longitud es ¡108 veces menor que un radio atómico!. Por tanto, no es viable para una exploración experimental.
Consideremos ahora un electrón cuya energı́a sea del orden de 10eV = 1,6 × 10−11ergs, esta es aproximada-
mente, la energı́a cinética de un electrón en el átomo de Hidrógeno. Para esta energı́a cinética la velocidad es
mucho menor que c y se puede considerar no relativista. Por tanto, si asumimos un electrón libre no relativista
con esta energı́a, su impulso viene dado por la expresión no-relativista
p =
√
2mT ≃ 3,9 × 10−8
cm
esta longitud es casi un orden de magnitud mayor que un radio atómico tı́pico, y aproximadamente del orden de
magnitud de la distancia interatómica en un cristal5. Esto sugiere que un electrón incidiendo en un cristal puede
presentar fenómenos de difracción, en donde las “rendijas” son los intersticios interatómicos. No describiremos
aquı́ los montajes experimentales que condujeron a la detección del patrón de difracción de los electrones. Basta
con decir que los experimentos de Davidson y Germer en 1927 tomaron el patrón de difracción de los electrones
que inciden en un cristal. El patrón anular de difracción de los electrones por cristales, no se puede atribuir a la
interferencia entre dos o más electrones distintos, sino a las ondas asociadas a un solo electrón y que provienen de
distintas partes del cristal. Esto se debe a que en el montaje experimental se empleó un haz de tan baja intensidad,
que los electrones son emitidos uno por uno, eliminando ası́ las posibles interferencias entre electrones distintos.
2.6.3. Las reglas de cuantización de Bohr a la luz de los postulados de De Broglie
Hemos visto que la longitud de la onda piloto de un electrón es aproximadamente λ ≃ 4× 10−8cm (asumiendo
que su energı́a cinética es aproximadamente la del electrón en el estado base del átomo de Hidrógeno). Por otro
lado, el radio de Bohr es la distancia tı́pica del electrón al núcleo en el estado base del átomo de Hidrógeno y está
dada por r0 ≃ 0,5×10−8cm. En consecuencia, λ es casi un orden de magnitud mayor al radio de Bohr y por tanto,
es de esperarse que el comportamiento ondulatorio sea esencial en el entendimiento de las órbitas en el átomo
de Hidrógeno. Sin embargo, las consideraciones anteriores se realizaron para electrones libres que no repiten su
órbita periódicamente, razón por la cual su onda piloto asociada debı́a ser una onda viajera que acompañara a
la partı́cula en su propagación. Ahora bien, un electrón en una órbita atómica posee un movimiento periódico y
no posee una dirección neta de propagación6, con lo cual esperarı́amos que su onda piloto asociada no tenga una
dirección neta de propagación. Esto nos conduce de manera natural a considerar que la onda piloto asociada a un
electrón en una órbita atómica periódica debe ser una onda estacionaria i.e. con nodos fijos.
5
Además, esta longitud de onda es muy grande con respecto a todas las dimensiones esperadas de la partı́cula asociada (el electrón).
6
Por ejemplo, si promediamos el vector r sobre un periodo completo, tomando como origen el núcleo atómico, dicho promedio es
nulo.
126 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
Veremos que la combinación de la regla de cuantización de Bohr junto con los postulados de De Broglie, nos
conducen a ondas piloto estacionarias. La regla de cuantización de Bohr Ec. (2.16) se escribe como
mvr = pr =
nh
2π
; n = 1, 2, 3, . . .
siendo p el momento lineal del electrón en la órbita permitida de radio r. Al sustituir el momento lineal por el
primer postulado de De Broglie de la Ec. (2.33) tenemos
hr
λ
=
nh
2π
; n = 1, 2, 3, . . .
2πr = nλ ; n = 1, 2, 3, . . . (2.41)
de manera que el perı́metro de las órbitas permitidas es un múltiplo entero de longitudes de onda de De Broglie.
La Ec. (2.41) es precisamente la condición para que las ondas piloto del electrón que se mueve repetidamente sobre
su órbita, se combinen coherentemente con las ondas piloto de recorridos anteriores, de modo que la superposición
forme una onda estacionaria. De hecho, si se violara la condición (2.41), entonces cuando se superpongan las ondas
asociadas a un gran número de recorridos, su interferencia será destructiva y se cancelará su intensidad promedio.
Puesto que la intensidad de la onda piloto es una medida de la ubicación de la partı́cula, lo anterior implica que el
electrón no podrı́a estar en esa órbita. La Fig. 2.2 ilustra el patrón de intensidad ψ (x, t0) de la onda estacionaria
asociada a las tres primeras órbitas de Bohr, para un tiempo fijo t = t0. Cuando el tiempo evoluciona cambia la
magnitud y el signo de los patrones oscilantes, pero la ubicación de los nodos es la misma en todo tiempo, ya que
éstos son fijos en una onda estacionaria.
Por otra parte, es posible demostrar que la exigencia de ondas piloto estacionarias para partı́culas en movimien-
to periódico, conduce a que dicha partı́cula deba satisfacer las reglas de cuantización de Wilson y Sommerfeld, Ec.
(2.24). Finalmente, las caracterı́sticas independientes del tiempo de la onda estacionaria permiten explicar porqué
el electrón en movimiento periódico orbital no emite radiación electromagnética.
2.7. Sı́ntesis de los resultados experimentales
Newton consideró que la luz era un haz de corpúsculos que podı́an reflejarse en un espejo cuando “rebotan”.
Sin embargo, los experimentos que mostraron fenómenos como la interferencia y la difracción, establecieron la
naturaleza ondulatoria de la luz a mediados del siglo XIX, lo cual permitió la fusión de la óptica con la electricidad
y el magnetismo. Los fenómenos de polarización de la luz pueden interpretarse como una manifestación del carácter
vectorial del campo eléctrico.
No obstante, el estudio de la radiación del cuerpo negro sugirió la hipótesis de la cuantización de la energı́a de
las ondas electromagnéticas estacionarias (osciladores armónicos) que se generaban al interior del cuerpo negro. La
energı́a de estos osciladores es de la forma E = nhν con n = 0, 1, 2, ...; siendo ν la frecuencia de cada oscilador. Esta
cuantización permite predecir adecuadamente el espectro de emisión del cuerpo negro empleando la estadı́stica de
Boltzmann. Por otra parte, el estudio del efecto fotoeléctrico sugirió que las ondas electromagnéticas libres que
se propagaban también estaban constituı́das por paquetes de energı́a que indican valores discretos de ésta. Cada
paquete denominado fotón tendrá una energı́a dada por E = hν. Esto permitió a Einstein comprender porqué
la energı́a máxima adquirida por los electrones era independiente de la intensidad de la onda electromagnética
incidente y porqué este energı́a se adquirı́a en tiempos tan cortos. Para ello era necesario además que el paquete
estuviera localizado en una pequeña región del espacio y que permaneciera localizado a medida que se aleja de la
fuente, a diferencia de las ondas clásicas que se extienden cuando se alejan de la fuente. Más adelante, mediante la
irradiación de una placa metálica con rayos X, compton muestra que estos cuantos pueden dispersarse mediante
la colisión con un electrón libre estacionario, emulando una colisión tipo “bolas de billar”. De esta forma pudo
predecir el pico en el espectro asociado a una longitud de onda mayor que la incidente.
En sı́ntesis, estos experimentos están mostrando la naturaleza discreta de la energı́a que se propaga en una onda
electromagnética y el hecho de que el cuanto asociado se puede comportar como partı́cula. Adicionalmente, tanto
2.7. SÍNTESIS DE LOS RESULTADOS EXPERIMENTALES 127
Figura 2.2: Patrones de onda estacionaria (lineas punteadas) asociados a las tres primeras órbitas de Bohr (lineas
continuas). El perfil se dibuja para una configuración instantánea evaluada en t = t0.
la cuantización como la colisión de fotones con electrones libres pudo explicarse satisfactoriamente relacionando
los parámetros de partı́cula (energı́a E y momento p del fotón) con los parámetros de onda (frecuencia ν y número
128 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
de onda k del fotón) de la radiación, en la forma
E = hν ; p = ~k ; ~ ≡
h
2π
; h ≃ 6,62 × 10−34
Joul × seg (2.42)
De otra parte, los experimentos espectroscópicos nos muestran que la radiación emitida o absorbida debida
a transiciones electrónicas en los átomos, solo nos arroja cuantos con valores discretos de longitud de onda, y
por tanto de energı́a. Esto implica que los niveles de energı́a permitidos para un electrón ligado a un átomo
también están cuantizados. Lo anterior llevó a Bohr a postular la cuantización del momento angular asociado al
electrón junto con la hipótesis de ausencia de radiación, en contraste con las predicciones de la mecánica clásica.
La cuantización de los estados de energı́a atómicos fué corroborada por los experimentos de Franck y Hertz, en
tanto que las reglas de cuantización fueron perfeccionadas por Wilson y Sommerfeld.
Una vez caracterizada la dualidad onda partı́cula de la radiación, es natural preguntarse si esta dualidad está
también presente en los objetos fı́sicos que tradicionalmente llamamos materia, por ejemplo en los electrones. Esta
pregunta condujo a De Broglie a postular que el movimiento de una partı́cula está gobernado por la propagación
ondulatoria de ciertas ondas piloto asociadas con la partı́cula. Asumiendo que la energı́a E y el momento p de la
partı́cula también cumplen las relaciones (2.42) dadas para el fotón, De Broglie estimó la frecuencia y la longitud
de onda de las ondas piloto
λ = h/p ; ν = E/h (2.43)
Este postulado fué confirmado por los experimentos de Davidson y Germer sobre difracción de electrones.
Naturalmente, el momento y la energı́a totales se deben conservar en cada proceso, en donde los momentos y
energı́as de la radiación y la materia están dados por los postulados anteriores.
Vamos ahora a examinar en más detalle el experimento de Young de la doble rendija. Veremos que este análisis
aportará ideas adicionales con respecto al comportamiento de la naturaleza a nivel subatómico.
2.8. El experimento de Young de la doble rendija
Hemos visto que es necesario incorporar aspectos corpusculares al comportamiento de la radiación electro-
magnética, la pregunta es si debemos abandonar la teorı́a ondulatoria de la radiación electromagnética. Veremos
que no es posible con una teorı́a puramente corpuscular explicar todos los fenómenos relacionados con los fotones,
de manera que tendremos que incorporar tanto los aspectos ondulatorios como corpusculares de la radiación.
El dispositivo utilizado se muestra en la Fig. 2.3, y consiste en una fuente aproximadamente monocromática
frente a la cual se coloca una placa opaca P con dos rendijas pequeñas F1 y F2 (pequeñas con respecto a la longitud
de onda emitida), detrás de esta placa opaca se ubica una pantalla de observación O que es usualmente una placa
fotográfica. Es importante que las dimensiones de las rendijas sean menores que la longitud de onda, ya que de
lo contrario las intensidades recogidas en la pantalla O serán compatibles con la óptica geométrica que puede
explicarse con una teorı́a corpuscular. En contraste, el fenómeno de difracción que se presenta cuando las rendijas
son pequeñas nos muestra la naturaleza ondulatoria del fenómeno.
Cuando obstruı́mos la rendija F2 obtenemos sobre la pantalla O una distribución de intensidades I1 (x) que es
el patrón de difracción generado por la rendija F1. Análogamente, al cerrar F1 obtenemos el patrón de intensidades
I2 (x). Si ahora abrimos las dos rendijas simultáneamente obtendremos un nuevo patrón de intensidades I (x). La
primera observación es que la intensidad resultante NO es la suma de las intensidades obtenidas con una sola
rendija
I (x) 6= I1 (x) + I2 (x)
¿como podrı́an explicarse estos resultados a la luz de una teorı́a corpuscular?. Es bien conocido que el patrón
de Difracción generado por una sola rendija no puede ser explicado con una teorı́a corpuscular cuando la rendija
tiene una dimensión menor que la longitud de onda incidente. Sin embargo, veremos que aún cuando pudiésemos
explicar el fenómeno de una rendija con una teorı́a corpuscular, el patrón de interferencia que se forma cuando
se abren las dos rendijas entra en conflicto con una teorı́a puramente corpuscular. Asumamos que el patrón de
2.8. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 129
Figura 2.3: (a) Montaje del experimento de Young con doble rendija. (b) Patrón de intensidades asociado a la
exposición por una sola rendija. La lı́nea punteada indica la suma de los dos patrones de intensidad. (c) Patrón
de intensidades obtenido con la apertura simultánea de las dos rendijas. El contraste con la gráfica punteada nos
muestra que la intensidad resultante no es la suma de las intensidades obtenidas con la apertura de una sola
rendija, revelando la existencia de un patrón de interferencia.
interferencia que se observa, es generado por la interacción de tipo corpuscular entre los fotones que pasan por
la rendija F1 con aquellos que pasan por la rendija F2. De ser ası́, tendrı́amos que si regulamos la potencia de la
fuente de tal manera que los fotones salgan prácticamente uno por uno, se eliminarı́an estas interacciones y por
tanto deberı́a desaparecer este patrón de interferencia, incluso si se espera mucho tiempo para que se depositen
mucho fotones sobre O.
Veamos ahora cual serı́a la predicción de una teorı́a puramente ondulatoria. La teorı́a ondulatoria predice que
la intensidad en un punto dado I (x) es proporcional a la amplitud al cuadrado del campo eléctrico evaluado
en tal punto. Cuando las dos rendijas están abiertas es claro que el campo total resultante en tal punto es la
superposición de los dos campos generados por la onda que pasa por cada rendija
E (x) = E1 (x) + E2 (x)
130 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
la intensidad es entonces proporcional a la amplitud del campo eléctrico total al cuadrado
I (x) ∝ |E (x)|2
= |E1 (x) + E2 (x)|2
I1 (x) ∝ |E1 (x)|2
; I2 (x) ∝ |E2 (x)|2
⇒ I (x) 6= I1 (x) + I2 (x)
si E1 (x) y E2 (x) se escriben en notación compleja, el término de interferencia resultante dependerá de la diferencia
en las fases complejas asociadas a E1 (x) y E2 (x). Esta interferencia explica el patrón de franjas que ocurre en
el fenómeno de difracción por dos rendijas. Si disminuı́mos la potencia de la fuente, las franjas de interferencia
disminuirán en intensidad pero no desaparecerán. De por sı́ este fue uno de los experimentos determinantes en
favor de la teorı́a ondulatoria en el siglo XIX.
Sin embargo, los resultados obtenidos cuando la potencia de la fuente es tal que los fotones se liberan uno a
uno, son realmente sorprendentes y entran en conflicto con la teorı́a puramente corpuscular pero también con la
teorı́a puramente ondulatoria.
Por una parte, si hacemos que el tiempo de exposición sea muy largo de manera que una gran cantidad de
fotones impactan la placa fotográfica, vemos que las franjas de interferencia no desaparecen a pesar de haber
eliminado la interacción entre los fotones. Por tanto, la teorı́a corpuscular no puede predecir este fenómeno. La
teorı́a ondulatoria en cambio ofrece una explicación satisfactoria al respecto.
De otra parte, si el tiempo de exposición lo hacemos muy corto de modo que solo unos pocos fotones impacten
la pantalla, vemos que los impactos sobre la placa son muy localizados como se esperarı́a de un comportamiento
corpuscular, y no se observa el patrón de interferencia con baja intensidad que predecirı́a la teorı́a ondulatoria.
Mas aún si el experimento para tiempos cortos de exposición se repite muchas veces para las mismas condiciones
iniciales (el mismo dispositivo con fotones de la misma energı́a y momento, ası́ como igual tiempo de exposición),
vemos que los pocos impactos localizados en cada experimento pueden tener una distribución muy diferente. Esto
indica que el proceso tiene un carácter altamente aleatorio que no es atribuı́ble al desconocimiento o falta de
control en las condiciones iniciales.
Si en cambio repetimos el experimento muchas veces bajo las mismas condiciones iniciales pero para tiempos
de exposición muy grandes, en los cuales muchos fotones han impactado la placa, vemos que el patrón contı́nuo
de intensidades se forma según lo indicado en la teorı́a ondulatoria, es decir con los patrones adecuados de
interferencia. Para este caso el fenómeno es altamente reproducible, es decir la distribución de intensidades es
esencialmente la misma en cada experimento.
Si se hacen experimentos para tiempos de exposición especı́ficos y estos tiempos de exposición se van incre-
mentando gradualmente, vemos que a medida que el tiempo de exposición aumenta el experimento se vuelve más
reproducible, pasando desde resultados muy aleatorios para tiempos de exposición cortos (pocos fotones inciden-
tes) hasta resultados altamente reproducibles para tiempos muy largos de exposición (muchos fotones incidentes).
Esto revela que la ley fundamental que rige al fenómeno debe ser de naturaleza probabilı́stica, ya que un modelo
probabilı́stico en general falla en sus predicciones cuando una muestra posee muy pocos elementos o eventos, pero
es altamente predictivo cuando la muestra consta de un enorme número de elementos o de eventos. En nuestro
caso los eventos son los impactos de los fotones sobre la placa y lo que vemos es que el patrón de interferencia se
va construyendo a medida que los fotones van impactando la placa.
Un aspecto que no hemos tocado hasta aquı́, es el referente a la determinación de la rendija por la cual pasa
cada fotón. Si queremos determinar por cual rendija pasa cada uno de los fotones que se emiten uno por uno,
podemos colocar dos detectores (digamos dos fotomultiplicadores) sobre cada rendija F1 y F2, en tal caso podemos
determinar completamente la rendija a través de la cual pasa cada fotón, ya que cuando se emite un fotón una
señal es registrada en uno de los detectores pero no en ambos al tiempo. Sin embargo, en este caso todos los
fotones detectados son absorbidos por los detectores y no alcanzan la pantalla. En otras palabras, la completa
determinación de la rendija por la cual pasa cada fotón destruyó completamente la información sobre el patrón de
difracción. Por otro lado, si dejamos un detector solo en F1 y dejamos abierto F2 veremos que cuando han pasado
muchos fotones cerca del 50 % han sido detectados (con respecto al experimento anterior). Concluı́mos que los
demás han pasado por F2 pero entonces el patrón de difracción que se construirá gradualmente sobre la pantalla
será el correspondiente a la difracción por una rendija, no se observará entonces el fenómeno de interferencia
2.8. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 131
inherente al experimento con dos rendijas. Una vez más el proceso de medición (determinación de la rendija de
paso) ha alterado la evolución posterior del sistema.
En lo referente al carácter probabilı́stico cuántico, es necesario distinguirlo de los aspectos probabilı́sticos que
se emplean usualmente en mecánica clásica. En la termodinámica y especialmente en la mecánica estadı́stica
clásica, se utilizan conceptos de probabilidad y estadı́stica debido a que en la práctica (experimental) no es posible
determinar o controlar las condiciones iniciales de muchas partı́culas, aunado con la dificultad práctica (teórica)
de resolver un gran número de ecuaciones diferenciales acopladas. Se asume sin embargo en las teorı́as clásicas
que si conozco todas las condiciones iniciales puedo al menos en principio predecir las trayectorias exactas de
las partı́culas y por tanto de mi sistema como un todo. En cuántica nos vemos avocados a usar la probabilidad
incluso con el conocimiento y/o control de las condiciones iniciales del sistema, estamos hablando entonces de
un comportamiento probabilı́stico esencial e inherente a las leyes de la naturaleza, al menos en nuestra presente
interpretación de los fenómenos.
2.8.1. Interpretación mecano-cuántica de la dualidad onda partı́cula
Hemos visto que tanto los aspectos corpusculares como los ondulatorios son indispensables para un correcto
entendimiento de los experimentos de Young con doble rendija. Dado que en mecánica clásica estos aspectos son
mutuamente excluyentes, será necesario replantearse las ideas de la mecánica clásica, las cuales después de todo
tuvieron su semilla en los fenómenos macroscópicos. Veamos a la luz de los resultados anteriores que aspectos
deben ser revaluados
De la discusión anterior hemos visto que cuando colocamos un fotomultiplicador (o dos) para detectar por
cual rendija van a pasar los electrones, afectamos de manera fundamental al sistema produciendo un cambio
drástico en el resultado final debido a que los fotones detectados se absorben y no alcanzan la pantalla. Vemos
entonces que el proceso de medición afecta de forma fundamental al sistema que se mide. En mecánica clásica,
si bien es necesario perturbar al sistema para poder medirlo, está implı́cito que esta perturbación se puede hacer
arbitrariamente pequeña al menos en principio. En mecánica cuántica éste y otros experimentos nos indicarán
que cuando se realiza un proceso de medición existe una cierta “perturbación fundamental” que no puede ser
minimizada y que altera de manera considerable al sistema que se mide.
Por otro lado, hemos visto que aunque los fotones se envı́en uno por uno, eliminando de esta forma la interacción
entre fotones, un fotón parece comportarse diferente si están abiertas las dos rendijas con respecto al caso en que
una sola de ellas está abierta, de no ser ası́ la intensidad resultante cuando las dos están abiertas serı́a la suma de
las intensidades obtenidas cuando se abre cada una. Adicionalmente, ya hemos visto que si intentamos determinar
por cual rendija pasan los fotones, evitamos que estos alcancen la pantalla. Esto se puede replantear diciendo
que es imposible observar el patrón de interferencia y al mismo tiempo conocer por cual rendija pasó cada fotón.
Esta afirmación será reforzada más adelante cuando discutamos el principio de incertidumbre de Heisenberg. Para
resolver esta paradoja es necesario abandonar la idea de que cada fotón pasará inevitablemente por una rendija
especı́fica, lo cual nos lleva a su vez a cuestionar el concepto de trayectoria, tan firmemente establecido en la
mecánica clásica.
Ahora bien, hemos visto que cuando unos pocos fotones han impactado la pantalla, la distribución de estos
fotones no es reproducible a pesar de que los experimentos se repitan bajo las mismas condiciones iniciales. Esto
implica que para un fotón dado no podemos predecir con total certeza en qué punto golpeará a la pantalla incluso
si conocemos sus condiciones iniciales. En consecuencia, el conocimiento de las condiciones iniciales de un sistema
no determina completamente el movimiento subsecuente de éste. No obstante, el hecho de que el mismo patrón
de interferencia se construya cuando el número de fotones es muy alto, nos indica que las condiciones iniciales nos
pueden determinar una distribución de probabilidad que sı́ puede ser especificada por alguna ecuación dinámica.
En este caso especı́fico, la probabilidad de que un fotón golpee la pantalla dentro de un intervalo entre el punto
x y el punto x + dx, es proporcional a I (x) dx calculado con la teorı́a ondulatoria, es decir será proporcional a
|E (x)|2
dx. Nótese que el principio de superposición que rige el comportamiento de los fenómenos ópticos clásicos
está basado en el hecho de que las ecuaciones de Maxwell sin fuentes son ecuaciones lineales y homogéneas, para
132 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
las cuales vale el principio de superposición, si E1 y E2 son soluciones de las Ecs. de Maxwell sin fuentes, una
combinación lineal de ellas también lo es.
Los anteriores hechos se pueden entonces postular en la siguiente forma:
Los aspectos corpusculares y ondulatorios de la luz son inseparables. De modo que la luz se comporta si-
multáneamente como onda y como flujo de partı́culas. Las predicciones sobre el comportamiento del fotón son solo
de carácter probabilı́stico. El comportamiento ondulatorio nos dictamina la distribución de probabilidad de su
manifestación como partı́cula (fotón). La información fı́sica sobre el fotón en un momento dado está determinada
por la componente E (r, t) de la onda electromagnética que es solución de las ecuaciones de Maxwell. El campo
E (r, t) caracteriza al estado de los fotones en el tiempo t. Dicho campo se interpreta como la amplitud de proba-
bilidad de que un fotón aparezca en el punto r en el tiempo t. Esto implica que la correspondiente probabilidad
de que un fotón esté en el volumen d3r centrado en r es proporcional a |E (r, t)|2
d3r.
Más adelante veremos que la amplitud de probabilidad E (r, t) tendrá su análogo para la materia en la deno-
minada función de onda ψ (r, t). Si bien existen muchas analogı́as entre E (r, t) y ψ (r, t) también existen algunas
diferencias importantes, por ejemplo E (r, t) no caracteriza completamente al estado de un fotón, en tanto que la
función de onda caracteriza completamente el estado de una partı́cula sin espı́n. La función de onda es esencialmen-
te compleja en tanto que E se hace complejo solo por conveniencia. La teorı́a cuántica completa para los fotones
(electrodinámica cuántica) debe tener en cuenta el carácter eminentemente relativista de las ecuaciones de Maxwell
y además corresponde a la cuantización de un medio que es clásicamente contı́nuo (campos electromagnéticos).
En contraste, la mecánica cuántica para partı́culas corresponde a la cuantización de un medio que clásicamente
se considera discreto (partı́culas puntuales) y que en muchos casos se puede tratar como no-relativista. Aquı́ solo
trabajaremos la mecánica cuántica no relativista de medios clásicamente discretos y por tanto no trabajaremos el
problema concerniente al proceso matemático de cuantización del fotón.
2.9. Proceso de medición, preparación de un sistema y el principio de la
descomposición espectral
Vamos a examinar otro experimento de óptica que arrojará muchas luces sobre las ideas relativas al proceso
de medición en cuántica.
La Fig. 2.4, muestra el montaje que queremos estudiar. Asumamos que hacemos incidir una onda plana
monocromática de una fuente sobre un polarizador P, elegiremos el eje z como el eje de propagación de la onda
electromagnética y asumiremos que el polarizador P se ubica en el plano xy. Paralelo al plano xy colocaremos un
analizador A que transmitirá luz polarizada a lo largo de ux y absorberá luz polarizada a lo largo de uy.
Asumiremos que el experimento se realizará en condiciones en donde sea válida la óptica clásica, es decir
cuando el haz de luz es muy intenso. En este caso, cuando la onda pasa por P queda polarizada en una dirección
especı́fica up caracterizada por
up = cos θ ux + sin θ uy
la onda plana monocromática que sale del polarizador P está caracterizada por el campo eléctrico
E (r, t) = E0upei(kz−ωt)
= E0 cos θei(kz−ωt)
ux + E0 sin θ ei(kz−ωt)
uy (2.44)
E0 es la amplitud (constante) de la onda polarizada. La intensidad es proporcional a |E0|2
. Cuando la onda
polarizada pasa por el analizador su campo eléctrico vendrá dado por
E′
(r, t) = E′
0uxei(kz−ωt)
= E0 cos θ uxei(kz−ωt)
que surge básicamente de la eliminación de la componente a lo largo de uy en la Ec. (2.44). La intensidad de la
onda que pasó el analizador está dada por |E′
0|2
es decir
I′
= I cos2
θ
2.9. MEDICIÓN Y PREPARACIÓN DE UN SISTEMA: DESCOMPOSICIÓN ESPECTRAL 133
Figura 2.4: (a) Montaje experimental para medidas de polarización. En z  0 tenemos luz no polarizada que en
z = 0 se polariza en la dirección up. El analizador A suprimirá la componente uy del campo eléctrico polarizado.
resultado conocido como la ley de Malus.
Nos preguntamos ahora por lo que ocurre a nivel cuántico. Es decir, cuando la intensidad de la fuente es
tan baja que los fotones se emiten uno a uno, de manera que la cuantización de la radiación se hace manifiesta.
Podemos colocar un detector de fotones detrás del analizador para mirar los resultados. Retomaremos para ello
los resultados de las discusiones anteriores.
En primera instancia, debido a la existencia de un cuanto indivisible (el fotón) el detector no registra una
fracción de fotón. O bien el fotón cruza el analizador o bien es absorbido completamente por él.
Adicionalmente, no podemos predecir con total certeza si un cierto fotón incidente sobre el analizador cruzará
o será absorbido por éste. Solo podremos conocer la probabilidad de que un evento especı́fico de estos ocurra.
Veremos sin embargo que en ciertos casos especı́ficos, podremos hacer predicciones con total certeza.
Cuando el número total de fotones es muy grande, es decir cuando ha pasado suficiente tiempo, se construirá
un patrón reproducible de probabilidad equivalente al que se obtiene para tiempos cortos con un haz de alta
intensidad. En sı́ntesis debe generarse un patrón reproducible (y por tanto predecible) que corresponda además al
lı́mite clásico. Es decir, si N es el número (grande) de fotones entonces un número dado por N cos2 θ de fotones
cruzará el analizador.
Nótese que el aparato de medida (analizador) solo puede dar algunos resultados especı́ficos que llamaremos
resultados propios o autoresultados. En este experimento solo hay dos resultados posibles: el fotón pasa el
analizador o es absorbido por él. Hay entonces una cuantización del resultado, lo cual es muy diferente al escenario
clásico en el cual la intensidad puede variar de manera contı́nua desde 0 hasta I cuando el ángulo θ se varı́a de
forma contı́nua.
El experimento muestra además el siguiente resultado, si el fotón está polarizado a lo largo de ux dicho fotón
pasará con toda certeza el analizador (con probabilidad 1). Análogamente, si el fotón está polarizado a lo largo
de uy hay una certeza total de que este fotón será absorbido (probabilidad cero para pasar). Estas aseveraciones
requieren naturalmente de una repetición de una gran cantidad de experimentos que muestren la naturaleza
134 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
probabilı́stica para fotones con estas polarizaciones. Adicionalmente, se observa que estos son los únicos estados
de polarización que conducen a una total certeza en la medida. Por esta razón llamaremos a estos estados de
polarización estados propios o autoestados. Vemos además que a cada resultado propio le corresponde un
estado propio, el resultado propio “fotón que cruza” está asociado con el estado propio de polarización a lo largo
de ux. El resultado propio “fotón que se absorbe” está asociado a fotones con polarización uy. En otras palabras,
para un estado propio tenemos total certeza de obtener su correspondiente resultado propio. Matemáticamente
podemos describir nuestros dos estados propios como
u(1)
p = ux ; u(2)
p = uy
La siguiente pregunta obvia es ¿cuál es la probabilidad de obtener un resultado propio dado, cuando el estado
es una superposición de los estados propios? es decir cuando el estado de polarización del fotón es arbitrario i.e.
up = cos θ ux + sin θ uy = cos θ u(1)
p + sin θ u(2)
p (2.45)
para obtener la distribución de probabilidad es necesario tener una gran cantidad de eventos para cada estado de
polarización. Esto se logra midiendo muchos fotones que poseen las mismas condiciones iniciales7 y se encuentra
experimentalmente que para un número N (grande) de fotones con polarización dada por un ángulo θ en (2.45) un
número N cos2 θ de ellos pasará, y N sin2
θ de ellos será absorbido. Por tanto, un fotón especı́fico con polarización
definida por θ tiene una probabilidad P (1) = cos2 θ de ser transmitido y una posibilidad P (2) = sin2
θ de ser
absorbido. Esto coincide con la ley clásica de Malus como esperábamos cuando el número de fotones es grande.
Lo anterior junto con la Ec. (2.45), nos indica que la probabilidad de obtener un cierto resultado propio es
proporcional al cuadrado del valor absoluto del coeficiente del estado propio asociado, al coeficiente lo llamamos
la amplitud de probabilidad, las amplitudes de probabilidad A (i) y las probabilidades P (i) para cada resultado
propio son en este caso
A (1) = cos θ =
D
u(1)
p
upi ; P (1) = cos2
θ =
D
u(1)
p
upi
2
A (2) = sin θ =
D
u(2)
p
upi ; P (2) = sin2
θ =
D
u(2)
p
upi
2
P (1) + P (2) = cos2
θ + sin2
θ = 1
en algunos casos será necesario colocar una constante de proporcionalidad para garantizar que la suma de las
probabilidades de todos los resultados propios sea uno.
Esto nos induce a postular que si tenemos un conjunto de autoresultados {Ri} asociados a autoestados {ψi}
un estado arbitrario se escribirá como superposición de los autoestados
ψ =
X
i
ciψi (2.46)
y la probabilidad de obtener un autoresultado Rk será
P (Rk) =
|ck|2
P
i |ci|2 (2.47)
o equivalentemente
P (Rk) =
|hψk| ψi|2
hψ| ψi
(2.48)
donde el denominador me asegura la conservación de la probabilidad
X
i
P (Ri) = 1
7
Nótese que el polarizador tiene el papel de reproducir las mismas condiciones iniciales en cada conjunto de experimentos.
2.10. DUALIDAD ONDA PARTÍCULA PARA LA MATERIA 135
puesto que el conjunto de todos los autoresultados es por definición el conjunto de todos los resultados experimen-
tales que podemos obtener al medir el sistema. Esta afirmación se denomina el principio de descomposición
espectral.
El ejemplo de los fotones polarizados nos indica además que la descomposición espectral especı́fica depende del
tipo de instrumento de medición dado que hay que utilizar los autoestados que corresponden a este aparato. Por
ejemplo, si el analizador (aparato de medición) tiene una orientación diferente, los autoestados estarán definidos
según esta nueva dirección. Si en vez de un analizador tenemos un medidor de otra variable fı́sica (por ejemplo el
espı́n) los autoresultados deben definirse correspondientemente y por lo tanto los autoestados.
Supongamos que dos fotones poseen la misma polarización pero se diferencian en otros observables fı́sicos (mo-
mento, espı́n, etc.), un aparato que mide polarización solo puede dicernir los diferentes valores de este observable,
por tanto si existen otros observables que caracterizan a mi partı́cula, al autovalor de polarización {a}, le corres-
ponde mas de un autoestado ya que todos los autoestados con polarización {a} están asociados a este autovalor
sin importar cuales sean los valores de los otros observables. Decimos que los autoestados están degenerados con
respecto al observable o autovalor {a} lo cual según la presente discusión indica que solo tenemos una información
parcial sobre el sistema. Volveremos sobre el tema de la degeneración más adelante.
La consistencia de estos resultados se puede examinar poniendo un segundo analizador A′ después de A y que
permita el paso de fotones con polarización en ux. Dado que todos los fotones que pasaron por A quedaron “prepa-
rados” en el estado de polarización ux, todos estos fotones están en un solo autoestado del nuevo analizador A′ con
autoresultado “el fotón pasa”. Por tanto, todos los fotones que pasaron por A deben pasar por A′. Similarmente,
si A′ está orientado según uy, todos los fotones que vienen de A deben ser absorbidos en A′. Estas predicciones
están confirmadas por los experimentos.
Analicemos ahora un aspecto de la medición directamente asociado con la naturaleza cuántica de la radiación.
Al ser el fotón un cuanto indivisible solo existe la posibilidad de transmisión o absorción, esto desembocó en el
hecho de que a partir de un estado arbitrario de polarización, hay un cambio abrupto luego de la medición para
los fotones que pasan, pues estos pasan de la polarización up a la polarización ux que corresponde a un autoestado
de mi aparato. Existe entonces una perturbación fundamental que altera el estado del sistema y que no puede ser
disminuı́da. Nótese que después de la medición (preparación del fotón en un autoestado) tenemos una información
adicional “el fotón ha pasado el analizador”.
Lo anterior es entonces una confirmación de que el proceso de medición perturba de manera fundamental
el estado del sistema. Podrı́amos en este punto postular que luego del proceso de medición, el sistema queda
preparado en un estado propio definido por el sistema mismo y por el aparato de medición.
2.10. Dualidad onda partı́cula para la materia
Hemos visto que de acuerdo con los postulados de De Broglie, la materia al igual que los fotones exhibe un
comportamiento dual onda partı́cula. La corroboración experimental de estos postulados se realizó a través de los
experimentos de Davidsson y Germer, ası́ como los experimentos de G. P. Thomson (ambos sobre difracción de
electrones), y los experimentos de Estermann, Frisch y Stern concernientes a la difracción de átomos de Helio.
Adicionalmente, De Broglie postuló que si bien la onda asociada a una partı́cula libre era una onda viajera
(nodos en movimiento), para un electrón en un átomo que esté ligado al núcleo atómico y que recorre su órbita
periódicamente, su onda piloto debe estar asociada a una onda estacionaria (nodos fijos). Esta interpretación
permitió dar una explicación a las reglas de cuantización de Bohr, demostrando que las órbitas permitidas en
un átomo son aquellas que corresponden a un perı́metro circular con un número entero de longitudes de ondas
estacionarias. Además para órbitas no circulares la exigencia de ondas estacionarias resultó equivalente a las reglas
de cuantización de Wilson y Sommerfeld, en donde los niveles permitidos de energı́a aparecen como los análogos
de los modos normales de una cuerda vibrante.
Recordemos además que dentro de sus postulados De Broglie asume que la energı́a E y el momento p de una
136 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
partı́cula material posee la siguiente relación con sus parámetros de onda
E = hν = ~ω ; p = ~k (2.49)
siendo ν, ω, k la frecuencia, frecuencia angular y número de onda respectivamente. La correspondiente longitud de
onda es
λ =
2π
|k|
=
h
|p|
(2.50)
una estimación de la longitud de onda de la materia ordinaria nos permite comprender porqué no observamos la
naturaleza ondulatoria de la materia ordinaria en el mundo macroscópico.
En virtud de la gran simetrı́a que parece existir entre la radiación y la materia, vamos a incorporar las ideas
ya recogidas de los experimentos ópticos para incorporarlas a la naturaleza de las partı́culas materiales. Estas
extrapolaciones están soportadas en el hecho de que experimentos similares a los ópticos se pueden realizar con
los electrones y otras partı́culas materiales, y observar que el comportamiento es muy similar al mostrado por los
fotones.
Comenzaremos entonces por mencionar que el concepto clásico de trayectoria será sustituı́do por el concepto
de una distribución dinámica (dependiente del tiempo) de probabilidad de que la partı́cula esté en cierta región
del espacio. Para ello será necesario encontrar una amplitud de probabilidad ψ (r, t) que estará asociada a un
campo escalar. A esta amplitud de probabilidad se le conoce como función de onda y me define el estado de una
partı́cula en un instante dado, es decir contiene toda la información posible sobre la partı́cula. La probabilidad de
encontrar a la partı́cula en un volumen d3r está dada por
dP (r, t) = C |ψ (r, t)|2
d3
r
donde C es una constante de normalización. Puesto que los experimentos muestran que esta distribución de
probabilidad presenta las propiedades ondulatorias, es necesario que la ecuación de movimiento que la genera
sea lineal y homogénea para que se cumpla el principio de superposición que se requiere para los fenómenos de
interferencia. Es claro que estos fenómenos de interferencia se verán reflejados en la probabilidad (al igual que en
la intensidad en los fenómenos ópticos), al elevar al cuadrado la cantidad ψ (r) (el análogo a E (r, t) en óptica).
Dado que la partı́cula debe estar siempre en algún lugar, es claro que la probabilidad total debe ser igual a la
unidad Z
C |ψ (r, t)|2
d3
r = 1 (2.51)
esto nos indica entonces que los estados fı́sicos ψ (r, t) deben ser funciones de cuadrado integrable en todas las
regiones accesibles a la partı́cula (es posible que ciertas condiciones fı́sicas hagan que algunas regiones no sean
accesibles). En otras palabras, la integral sobre el volumen accesible de la partı́cula debe ser convergente.
Asumiremos además que se cumple el principio de descomposición espectral aplicado a la medida de una
cantidad fı́sica arbitraria. Esto significa que (a) El resultado de la medida debe pertenecer a un conjunto de
autoresultados {a}. (b) Con cada autovalor a se asocia un autoestado, es decir una autofunción ψa (r). Esta
autofunción cumple la condición de que si ψ (r, t0) = ψa (r) siendo t0 el instante en el cual se realiza la medida, el
resultado de tal medida nos dará con toda certeza el autovalor a. (c) Para todo estado ψ (r, t) la probabilidad Pa
de obtener el autovalor a cuando se realiza una medida en el tiempo t0, se encuentra descomponiendo ψ (r, t) en
los autoestados ψa (r, t)
ψ (r, t0) =
X
a
caψa (r) ; Pa =
|ca|2
P
b |cb|2 =
|hψa |ψi|2
hψ |ψi
;
X
a
Pa = 1
en virtud de la arbitrariedad del estado inicial ψ (r, t0), lo anterior implica que los autoestados ψa (r) deben ser
completos, es decir deben formar una base para el conjunto de todos los estados fı́sicos posibles, esto nos llevará
de manera natural al concepto de observable. (d) Si la medida nos arroja un autovalor a, la partı́cula quedará
2.11. ASPECTOS ONDULATORIOS DE UNA PARTÍCULA MATERIAL 137
en su autoestado asociado ψa (r). (e) La ecuación que describe la evolución del sistema (evolución temporal de
la amplitud de probabilidad) debe ser lineal y homogénea en ψ. Debe tener soluciones de naturaleza ondulatoria
compatibles con las relaciones de De Broglie, en la siguiente sección estudiaremos con más detalle estas propiedades.
Es importante observar que cuando realizamos el paso de suplantar la trayectoria de una partı́cula (clásicamente
puntual), por una distribución dinámica de probabilidad (un campo) estamos reemplazando un estado clásico de
partı́cula puntual de seis parámetros en cada tiempo (tres coordenadas de posición y tres de velocidad), por un
estado cuántico determinado por un número infinito de parámetros: el valor de la función de onda en cada punto
del espacio (y en el tiempo dado). El hecho de que la distribución de probabilidad dependa del tiempo nos llevará
al concepto de propagación de la onda asociada con la partı́cula. A manera de ejemplo, en el experimento de la
doble rendija de Young cuando se observa el patrón de interferencia no poseemos información sobre la rendija por
la cual pasó cada fotón (también vale para electrones u otras partı́culas materiales), en realidad la onda asociada
cruza por ambas rendijas y solo podemos calcular la probabilidad de que pase por una de ellas.
Es importante mencionar sin embargo, que la simetrı́a materia radiación exhibida hasta el momento posee
una excepción importante: los fotones son en general emitidos (creados) o absorbidos (destruı́dos) durante un
experimento. En contraste, las partı́culas materiales no se crean ni se destruyen en los experimentos tı́picos. Por
ejemplo, un electrón emitido por un filamento caliente ya existı́a previamente en el filamento. De la misma forma
un electrón absorbido en un detector no desaparece, simplemente se vuelve parte de un átomo del detector o de
una corriente en éste. En realidad la teorı́a de la relatividad predice que es posible la creación y aniquilación de
partı́culas materiales: por ejemplo un fotón de alta energı́a que pasa cerca a un átomo puede crear un par electrón
positrón (partı́cula antipartı́cula). Recı́procamente, una colisión electrón positrón aniquila a ambas partı́culas
emitiendo un fotón, esta conversión radiación materia o viceversa es posible gracias a la equivalencia energética
de la masa. Sin embargo, en el lı́mite no relativista la materia no se puede crear ni destruı́r, lo cual nos lleva
a una ley importante de conservación del número de partı́culas. En particular, para sistemas de una partı́cula
podemos hacer la afirmación de que la partı́cula está en alguna parte para todo tiempo, lo cual nos indica una
conservación de la probabilidad (la integral de volumen 2.51 debe ser la unidad para todo tiempo).
Resumamos entonces las diferencias importantes entre materia y radiación que nos conducen a que la teorı́a
cuántica para la materia es más sencilla. (a) Los fotones son irremediablemente relativistas, la materia en cambio
puede estar en un régimen no relativista y de hecho para sólidos a temperaturas normales los electrones y núcleos
tienen velocidades mucho menores que la de la luz. Por tanto, para la materia tiene sentido una teorı́a cuántica no
relativista pero no para la radiación. (b) La naturaleza relativista de los fotones (y de la materia a altas energı́as)
conduce a que el número de fotones no se conserva en el tiempo, por tanto la distribución de probabilidad debe
colapsar para tiempos anteriores a la emisión y posteriores a la absorción, la Ec. (2.51) no es válida para todo
tiempo y debe incorporarse una ecuación o ecuaciones que me den cuenta de la dinámica en el número de partı́culas
(dinámica de creación y destrucción). (c) Desde el punto de vista clásico las partı́culas suelen modelarse como
medios discretos (partı́culas puntuales), en tanto que el escenario clásico del fotón corresponde a medios contı́nuos
(campos electromagnéticos). La cuantización de la materia se asocia entonces a menudo con la cuantización de
un medio clásicamente discreto (teorı́a cuántica “ordinaria”), en tanto que la cuantización de la radiación está
necesariamente asociada a la cuantización de un medio clásicamente contı́nuo (teorı́a cuántica de campos).
2.11. Aspectos ondulatorios de una partı́cula material
Hemos visto que la distribución de probabilidad está asociada con las propiedades ondulatorias de la materia
(o la radiación). Por tanto, la generación de la ecuación dinámica para esta distribución de la probabilidad
requerirá de estudiar las propiedades ondulatorias que dicha ecuación debe generar. En general, la mayor parte de
la discusión que se desarrollará en esta sección es también válida para ondas clásicas, los desarrollos matemáticos
son básicamente idénticos pero la interpretación difiere en ambos casos. Si seguimos los postulados de De Broglie,
el punto de partida natural será el estudio de las ondas viajeras libres. Dentro de la ecuación de onda clásica libre
138 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
(i.e. homogénea) la solución más simple (monocromática) es la solución tipo onda plana
ψ (r, t) = Aei(k·r−ωt)
(2.52)
es inmediato ver que la onda plana es tal que
|ψ (r, t)|2
= |A|2
de modo que si efectivamente representa a la onda asociada a una partı́cula libre, nos predice que la distribución
de probabilidad de una partı́cula libre es uniforme en el espacio, lo cual es compatible con la homogeneidad e
isotropı́a del espacio. Podrı́a argumentarse que las ondas planas no son de cuadrado integrable de modo que no
representan estrictamente un estado fı́sico. Sin embargo, nuestra experiencia con la óptica en la cual las ondas
planas tampoco son estados fı́sicos nos muestra que el estudio de sus propiedades es muy provechoso, por un lado
porque se puede considerar como el lı́mite de un estado fı́sico y por otro lado porque los estados fı́sicos se podrán
escribir como superposición de tales funciones en virtud de su completez (ver sección 1.31.1).
Tomaremos entonces la solución (2.52) como el prototipo de una onda piloto. Nuestro objetivo será realizar
una teorı́a no relativista que sea compatible con los postulados de De Broglie. Partiremos entonces de la relación
no relativista entre E y p para una partı́cula
E =
p2
2m
(2.53)
y utilizando las relaciones de De Broglie (2.49) llegamos a
ω =
~k2
2m
(2.54)
la relación de dispersión (2.54) nos dice que la ecuación de onda NO es la ecuación dinámica que gobierna a la
teorı́a cuántica no relativista de una partı́cula, ya que es fácil demostrar que insertando (2.52) en la ecuación de
onda clásica se obtiene la relación de dispersión
ω2
= k2
v2
(2.55)
siendo v la velocidad de la onda. Volveremos sobre este problema más adelante, de momento asumiremos que la
onda viajera libre (2.52) es solución de la ecuación de movimiento para el estado cuántico ψ de una partı́cula libre
con relación de dispersión dada por (2.54). Puesto que las ondas piloto deben generar los fenómenos ondulatorios,
es necesario que la combinación lineal de soluciones sea solución de la ecuación dinámica para generar los fenómenos
de interferencia.
2.11.1. Estados cuánticos arbitrarios como superposición de ondas planas
De acuerdo con lo anterior, y dado que las ondas planas pueden generar cualquier función de cuadrado integrable
(completez) cualquier estado cuántico de una partı́cula (no necesariamente libre) se puede escribir como una
superposición de la forma
ψ (r, t) =
1
(2π)3/2
Z
ψ̄ (k, t) ei[k·r−ωt]
d3
k (2.56)
donde d3k = dkx dky dkz representa un diferencial de volumen en el espacio de las k′s (usualmente denominado
espacio recı́proco). La transformada de Fourier ψ̄ (k) puede ser compleja pero debe ser bien comportada para
permitir derivar la solución dentro de la integral. Por supuesto, las transformadas de Fourier especı́ficas dependerán
del problema especı́fico.
Una función de onda que es superposición de ondas planas como la descrita en (2.56) se denomina un paquete
de ondas tridimensional. Por simplicidad, tomaremos el caso unidimensional
ψ (x, t) =
1
√
2π
Z
ψ̄ (k, t) ei[kx−ωt]
dk (2.57)
y estudiaremos más adelante el caso tridimensional. En primer lugar estudiaremos el perfil del paquete de onda
en un instante dado
2.11. ASPECTOS ONDULATORIOS DE UNA PARTÍCULA MATERIAL 139
2.11.2. Perfil instantáneo del paquete de onda
Por simplicidad elegimos el instante como t = 0. La Ec. (2.57) se simplifica a
ψ (x, 0) =
1
√
2π
Z
ψ̄ (k, 0) eikx
dk (2.58)
y su inversa es
ψ̄ (k, 0) =
1
√
2π
Z
ψ (x, 0) e−ikx
dx (2.59)
la forma instantánea del paquete estará dada por la dependencia x de ψ (x, 0) definida en (2.58). Trataremos
de definir el comportamiento cualitativo de ψ (x, 0) por medio de ejemplos sencillos. Supongamos que ψ (x, t)
está dado por una superposición de tres ondas planas eikx (en t = 0), caracterizadas por los números de onda
k0, k0 − ∆k
2 , k0 + ∆k
2 con amplitudes g (k0), g (k0) /2 y g (k0) /2
ψ (x) =
g (k0)
√
2π

eik0x
+
1
2
ei(k0− ∆k
2 )x
+
1
2
ei(k0+ ∆k
2 )x

(2.60)
ψ (x) =
g (k0)
√
2π
eik0x

1 + cos

∆k
2
x

(2.61)
Figura 2.5: (a) Partes reales de cada una de las tres ondas dadas por (2.60). (b) Superposición de las tres ondas. La
lı́nea punteada es la envolvente dada por

1 + cos ∆x
2 x

, que le da forma al paquete de ondas. La lı́nea contı́nua
describe las oscilaciones.
La Fig. 2.5 muestra la forma de cada una de estas tres ondas (sus partes reales) y de la superposición. La Ec.
(2.61) muestra que |ψ (x)| es máximo cuando x = 0, lo cual se aprecia en la Fig. 2.5 en virtud de que en x = 0
140 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
las tres ondas están en fase y por lo tanto interfieren constructivamente. A medida que nos movemos desde x = 0
(hacia la izquierda o la derecha) las ondas están cada vez más en desfase de modo que |ψ (x)| va disminuyendo,
hasta que la interferencia se vuelve totalmente destructiva en ciertos puntos xn (posiciones de los nodos), cuando
la diferencia de fase entre eik0x y ei(k0±∆k/2)x es igual a (2n + 1) π, siendo n un entero no negativo. Los nodos
xn más cercanos a x = 0 están asociados a una diferencia de fase π
k0xn −

k0xn ±
∆k
2
xn

= π ⇒ ∓
∆k
2
xn = π
∆k
2
xn = ∓π ⇒ xn = ∓
2π
∆k
Dado que el paquete es simétrico y está centrado en x = 0, el ancho del paquete es ∆x = 2 |xn|
∆x =
4π
∆k
⇒ (∆x) (∆k) = 4π (2.62)
esto nos muestra que a medida que el ancho ∆k de la función
ψ̄ (k)
decrece, el ancho ∆x de la función |ψ (x)|
aumenta, siendo ∆x la distancia entre dos ceros de |ψ (x)|. Similarmente, si el ancho del paquete ∆x disminuye
(paquete más localizado), el ancho ∆k de
ψ̄ (k)
debe aumentar a fin de mantener la relación (2.62).
Si asumimos que k0 ≫ ∆k entonces la frecuencia del término eik0x es mucho mayor a la frecuencia del término
1+cos ∆k
2 x

. Por lo tanto, la parte oscilante en x para la Ec. (2.61) está dada por la función eik0x y la envolvente
(modulación de la amplitud de oscilación) está dada por
|ψ (x)| =
g (k0)
√
2π
1 + cos

∆k
2
x
esta amplitud de la envolvente o función moduladora de la amplitud se ilustra como lı́nea punteada en la Fig. 2.5.
En este caso, vemos que la envolvente dada por |ψ (x)| es periódica en x de modo que tenemos un tren infinito
de paquetes de onda con una serie de nodos y máximos. Este hecho se debe a que la superposición es de un
número finito de ondas planas. Para una superposición contı́nua de un número infinito de ondas como el dado en
(2.58), este fenómeno no ocurre y tendremos en general un solo máximo para el perfil |ψ (x, 0)|. En realidad, lo que
esperamos de una onda piloto asociada a una partı́cula es un solo paquete relativamente “localizado” alrededor
del máximo del paquete (región de mayor probabilidad de localizar a la partı́cula).
Retornemos ahora al caso general de una superposición contı́nua de la forma (2.58), aquı́ el fenómeno de
interferencia es más complejo pero de nuevo tendremos un máximo en |ψ (x, 0)| cuando las diferentes ondas
viajeras interfieran constructivamente. Imaginemos que
ψ̄ (k, 0)
está dada por una curva cuyo perfil es similar
a una campana de Gauss simétrica centrada en k = k0 con un pico bien pronunciado en k0 y un ancho ∆k.
En realidad, no hay una sola forma de parametrizar este ancho, pero tomaremos por convención que el ancho lo
definimos a la mitad de la altura del pico. Bajo esta suposición, escribamos ψ̄ (k, 0) en notación polar siendo α (k)
el argumento y siendo
ψ̄ (k, 0)
la longitud del fasor
ψ̄ (k, 0) =
ψ̄ (k, 0)
eiα(k)
(2.63)
ahora asumamos que α (k) varı́a lentamente en el intervalo [k0 − ∆k/2, k0 + ∆k/2] donde la longitud del fasor
ψ̄ (k, 0)
es apreciable. Cuando ∆k es suficientemente pequeño, podemos expandir a α (k) en las vecindades de
k = k0
α (k) ≃ α (k0) + (k − k0)

dα
dk

k=k0
(2.64)
2.11. ASPECTOS ONDULATORIOS DE UNA PARTÍCULA MATERIAL 141
reemplazando esta expansión en (2.58) se obtiene
ψ (x, 0) =
1
√
2π
Z ∞
−∞
ψ̄ (k) eikx
dk =
1
√
2π
Z ∞
−∞
ψ̄ (k)
eiα(k)
eikx
dk (2.65)
≃
1
√
2π
Z k0+ ∆k
2
k0− ∆k
2
ψ̄ (k)
e
i
h
α(k0)+(k−k0)[dα
dk ]k=k0
+kx
i
dk
=
1
√
2π
Z k0+ ∆k
2
k0− ∆k
2
ψ̄ (k)
e
i
h
α(k0)+(k−k0)[dα
dk ]k=k0
+kx−k0x+k0x
i
dk
=
1
√
2π
Z k0+ ∆k
2
k0− ∆k
2
ψ̄ (k)
e
i
h
α(k0)+(k−k0)[dα
dk ]k=k0
+(k−k0)x+k0x
i
dk
=
ei[α(k0)+k0x]
√
2π
Z k0+ ∆k
2
k0− ∆k
2
ψ̄ (k)
e
i
n
(k−k0)

[dα
dk ]k=k0
+x
o
dk (2.66)
quedando finalmente
ψ (x, 0) ≃
ei[k0x+α(k0)]
√
2π
Z k0+ ∆k
2
k0− ∆k
2
ψ̄ (k)
ei(k−k0)(x−x0)
dk (2.67)
x0 ≡ −

dα
dk

k=k0
(2.68)
La expresión (2.67) es útil para un análisis cualitativo de las variaciones de |ψ (x, 0)| con x. Partiendo de k = k0
Figura 2.6: Variaciones con respecto a k, de la parte real del integrando en la Ec. (2.67) (a) cuando x es fijo en
un valor tal que |x − x0|  1/∆k, en tal caso la función oscila varias veces en el intervalo ∆k. (b) Cuando x
es fijo en un valor tal que |x − x0|  1/∆k, en tal caso la función oscila muy poco en tal intervalo y la función
ψ (x, 0) toma valores grandes. Por tanto, el centro del paquete de ondas (punto donde |ψ (x, 0)| es máximo) se
ubica en x=x0. En todo el análisis se ha supuesto que
ψ (k)
es una función simétrica centrada en k0, con un
perfil similar a una campana de Gauss.
el siguiente valor kb para el cual se ha ejecutado una oscilación es
(kb − k0) (x − x0) = 2π ⇒ (kb − k0) =
2π
(x − x0)
142 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
De modo que el valor de |x − x0| nos dice si |kb − k0| es mayor o menor que ∆k/2 o en otras palabras, si en el
intervalo de integración definido en (2.67) el integrando ha logrado o no completar una oscilación. Cuando |x − x0|
es grande i.e. cuando |x − x0| ≫ 2π/∆k, se tiene que
(kb − k0) =
2π
(x − x0)
≪ ∆k
de modo que una oscilación en el integrando de (2.67) se realiza en un intervalo mucho menor que el ancho de
integración. En consecuencia, la función de k que se integra en (2.67) oscila muchas veces dentro del intervalo ∆k
y las contribuciones de las sucesivas oscilaciones se cancelan entre sı́ (Fig. 2.6a); por tanto, la integral sobre k se
vuelve muy pequeña. Es decir que cuando x está fijo en un valor lejano a x0 las fases de las diversas ondas que
constituyen a ψ (x, 0) varı́an muy rápidamente en el dominio ∆k, y forman entre ellas una interferencia destructiva.
Por otra parte, cuando x ≃ x0, o en otras palabras cuando
|x − x0| ≪ 1/∆k
se tiene que
|kb − k0| ≫ 2π∆k  ∆k
la función que se integra sobre k solo realiza una pequeña fracción de la oscilación a partir de k0 y dado que
|k − k0|  ∆k para un k que esté en el intervalo de integración, se tiene que
|k − k0| |x − x0| ≪
1
∆k
∆k = 1 , k ∈

k0 −
∆k
2
, k0 +
∆k
2
ψ̄ (k)
ei(k−k0)(x−x0)
≃
ψ̄ (k)
(2.69)
de modo que la exponencial apenas modifica un poco el perfil de
ψ̄ (k)
(Fig. 2.6b), y en el proceso de integración
la fase se mantiene casi constante, por tanto la interferencia es constructiva y |ψ (x, 0)| es máximo.
De otra parte, la Ec. (2.69) se convierte en una igualdad para la posición xM tal que xM = x0, en cuyo caso no
hay oscilación y la interferencia es completamente constructiva. Por tanto, la posición xM (0) = x0 corresponde al
centro del paquete de onda (máximo del módulo del paquete) que de acuerdo con la Ec. (2.68) viene dada por:
xM (0) = x0 = −

dα
dk

k=k0
(2.70)
alternativamente, se puede ver que (2.70) nos da la posición del centro del paquete teniendo en cuenta que la Ec.
(2.58) adquiere su máximo en valor absoluto cuando las ondas de mayor amplitud (aquellas con k cercano a k0)
interfieren constructivamente. Esto ocurre cuando las fases que dependen de k de estas ondas varı́an lentamente
alrededor de k0. Para obtener el centro del paquete se impone que la derivada con respecto a k de la fase sea cero
para k = k0, esta fase se puede ver en la segunda igualdad de la Ec. (2.65) y se obtiene
d
dk
[kx + α (k)]k=k0
= 0 ⇒

x +
dα
dk

k=k0
= 0 (2.71)
vemos entonces que la condición de fase estacionaria (2.71) se reduce a (2.70).
Cuando x se aleja de x0, el valor de |ψ (x, 0)| decrece. El propósito ahora es definir un ancho ∆x dependiendo
del decrecimiento de |ψ (x, 0)| alrededor de x0. Nótese que este decrecimiento es apreciable si ei(k−k0)(x−x0) oscila
una vez o más cuando k recorre el dominio desde k0 − ∆k
2 hasta k0 + ∆k
2 es decir cuando
∆k · |x − x0|  2π
donde hemos definido el “umbral” para |x − x0| como el valor para el cual se ejecuta una oscilación. Si definimos
∆x ≡ |x − x0| /2π como el ancho tı́pico del paquete, tenemos
∆k ∆x  1 (2.72)
2.11. ASPECTOS ONDULATORIOS DE UNA PARTÍCULA MATERIAL 143
lo cual nos da una relación entre los anchos de dos funciones que son transformadas de Fourier una de otra.
Observemos de nuevo que no hay una única manera de definir el ancho ∆x, por ejemplo podemos definir este
ancho con dos oscilaciones, con tres etc, entre mayor sea el número de oscilaciones mayor es el efecto de cancelación,
el ancho será mayor y estaremos tomando una mayor porción del área bajo la curva. De la misma forma, puedo
tomar el ancho ∆k cuando la altura
ψ̄ (k)
es 1/2, 1/e, 1/3 etc, es decir puedo ensanchar ∆k para tomar una porción
más grande del área bajo la curva y tener mejores aproximaciones. En vista de lo anterior, el hecho importante
es que este producto tiene una cota inferior, ya que el valor preciso de esta cota depende de la definición de los
anchos ∆k y ∆x. Esta es la razón para utilizar el sı́mbolo  en la Ec. (2.72) en lugar de ≥.
La relación (2.72) nos dice además que no es posible construı́r paquetes cuyo producto de anchos sea mucho
menor que uno, pero en cambio sı́ es posible construı́r paquetes cuyo producto de anchos sea mucho mayor que
uno.
Nótese que este análisis ha sido completamente matemático, k y x pueden ser variables arbitrarias siempre
que ψ (x, 0) y ψ̄ (k) sean transformadas de Fourier la una de la otra. No existe ninguna suposición fı́sica en estos
argumentos.
El presente análisis se utiliza en ondas clásicas asignando a k el número de onda y a x la variable espacial en
una dimensión. La Ec. (2.72) demuestra que a medida que un paquete de ondas se hace más monocromático (a
medida que se reduce ∆k) el ancho ∆x del paquete de onda espacial se hace mayor. En un paquete estrictamente
monocromático ∆k → 0 y por tanto ∆x → ∞, por lo cual las ondas monocromáticas no corresponden a estados
fı́sicos. Este mismo principio nos muestra que no existe un tren de ondas electromagnéticas para el cual se pueda
definir la posición y la longitud de onda con infinita precisión al mismo tiempo.
2.11.3. El principio de incertidumbre de Heisenberg
En nuestro contexto de la mecánica cuántica, el paquete de onda ψ (x, t) dado por (2.57) representa el estado de
una partı́cula cuya probabilidad en t = 0 de estar fuera del paquete centrado en x0 y de ancho ∆x es prácticamente
cero.
El resultado (2.72) posee una interesante interpretación a la luz de la mecánica cuántica. Por ejemplo, hemos
visto que cuando nuestro estado se describe por una sola onda plana del tipo dado en la Ec. (2.52) (que no es
estrictamente un estado fı́sico), la probabilidad de estar en cualquier punto del eje x es uniforme, y es la misma para
todos los valores de t, de modo que no hay propagación de la probabilidad. Por otro lado, el ancho ∆x del paquete
de onda se puede considerar infinito (la amplitud no se modula), lo cual se traduce en la máxima incertidumbre
posible en la posición de la partı́cula (igual probabilidad en todas partes). Por otra parte, esta onda tiene solo
una frecuencia angular ω0 y un solo número de onda k0 (onda monocromática) y de acuerdo con las relaciones de
De Broglie su energı́a y su momento están perfectamente definidos E = ~ω0, p = ~k0. Esta onda plana pura se
puede considerar como un caso particular del paquete de ondas (2.57) con
ψ̄ (k) = δ (k − k0) ; ∆k → 0
donde el hecho de que ∆k → 0 se vé claramente si vemos a la delta de Dirac como el lı́mite de Gaussianas cada
vez más altas y agudas. La relación ∆k → 0 junto con la Ec. (2.72) nos lleva a que ∆x → ∞ como ya se dijo.
A la luz del principio de descomposición espectral este resultado se puede ver de la siguiente forma: A la
partı́cula en t = 0 le hemos asignado una función de onda ψ (x, 0) = Aeikx y hemos visto que posee un momento
bien determinado. Es decir que una medida del momento en t = 0 dará definitivamente el valor p = ~k 8. De
esto se deduce que Aeikx caracteriza al autoestado correspondiente al autovalor p = ~k. Puesto que existen ondas
planas para todos los valores de k, los autovalores de p que se pueden obtener en una medición del momento sobre
un estado arbitrario son todos los valores reales. En este caso no hay cuantización de los autoresultados, todos los
8
Este punto es quizás el más adecuado para decir que siempre hemos tratado con medidas ideales. Decir que la medida del momento
está completamente definida no es experimentalmente cierto. Lo que en realidad se quiere decir es que en este caso no hay una
perturbación fundamental que cambie drásticamente el sistema y por tanto las demás perturbaciones se puede hacer cada vez más
pequeñas.
144 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
valores del momento son permitidos como en la mecánica clásica. Ahora bien, la total determinación de p viene
acompañada por una completa incertidumbre en x.
Volvamos ahora al caso de un paquete como el dado por (2.58). Como ψ (x, 0) es una superposición lineal de
autofunciones del momento eikx con coeficientes ψ̄ (k, 0), el principio de descomposición espectral nos conduce a
interpretar a
ψ̄ (k, 0)
2
dk (con un posible factor de normalización) como la probabilidad de encontrar un valor
de momento entre p = ~k y p + dp = ~ (k + dk), cuando hacemos una medida en t = 0 del momento de una
partı́cula cuyo estado es descrito por ψ (x, 0) en (2.58). Esta interpretación es necesaria cuando el autovalor tiene
un espectro contı́nuo ya que en este caso la probabilidad de estar en un punto matemático especı́fico serı́a cero
y solo es finita la probabilidad de estar en un intervalo dado. En este caso
ψ̄ (k, 0)
2
serı́a una densidad de
probabilidad (probabilidad por unidad de volumen unidimensional), y no una probabilidad como ocurre en el caso
discreto.
Ahora bien, dado que para una partı́cula es más usual hacer medidas de momento y energı́a que de frecuencia
angular y número de onda, es más adecuado escribir las expresiones en términos de E y p usando las relaciones
de De Broglie Ecs. (2.49)9. En particular, la Ec. (2.58) se reescribe como
ψ (x, 0) =
1
√
2π~
Z
ψ̄ (p, 0) eipx/~
dp
dado que las transformadas de Fourier satisfacen la relación de Bessel parseval (invarianza de la norma)
hψ| ψi (0) =
Z ∞
−∞
|ψ (x, 0)|2
dx =
Z ∞
−∞
ψ̄ (p, 0)
2
dp ≡ C
tendremos entonces que
dP (x, 0) =
1
C
|ψ (x, 0)|2
dx ; dP̄ (p, 0) =
1
C
ψ̄ (p, 0)
2
dp
dP (x, 0) representa la probabilidad de encontrar a la partı́cula en t = 0 en el intervalo [x, x + dx]. Similarmente,
dP̄ (p, 0) es la probabilidad de obtener una medida del momento de la partı́cula en t = 0 que esté dentro del
intervalo [p, p + dp].
Ahora escribamos la desigualdad (2.72) en términos de E y p usando la relaciones de De Broglie (2.49)
∆x ∆p  ~ (2.73)
para dar una interpretación fı́sica a (2.73), supongamos que el estado de una partı́cula está definido por el paquete
de onda (2.57). En tal caso, la probabilidad de encontrar la partı́cula en t = 0 dentro del intervalo [x0 − ∆x/2,
x0 + ∆x/2] es prácticamente uno. Decimos entonces que ∆x es la incertidumbre en la medida de la posición de
la partı́cula. Similarmente, si medimos el momento de la partı́cula en el mismo tiempo (t = 0) tal probabilidad es
casi uno dentro del intervalo [p0 − ∆p/2, p0 + ∆p/2]. Es decir que ∆p mide la incertidumbre en la determinación
del momento de la partı́cula.
A la luz de lo anterior la Ec. (2.73) expresa que es imposible medir al mismo tiempo la posición y el momento
de la partı́cula con grado arbitrario de exactitud. Cuando alcanzamos el lı́mite inferior en (2.73) una disminución
en ∆x (es decir un aumento en la exactitud de la medición de la posición) conduce a un aumento en ∆p (es decir
un aumento en la incertidumbre de la medida del momento, o equivalentemente una disminución en la exactitud
de tal medida) y viceversa. Este enunciado se conoce como el principio de incertidumbre de Heisenberg.
Notemos que el valor del término de la derecha en (2.73) nos expresa más bien un orden de magnitud que un
lı́mite inferior preciso.
Es de anotar que si bien hay un análogo clásico del principio de incertidumbre para las ondas, no hay un análogo
clásico para las partı́culas. En realidad hemos visto que el principio de incertidumbre está asociado inicialmente a
los parámetros de onda, que se conectan a los parámetros de partı́cula por medio de las relaciones de De Broglie,
estas a su vez están asociadas a la dualidad onda partı́cula que es una caracterı́stica cuántica. La pequeñez de ~
hace que este principio de incertidumbre no se manifieste en los sistemas macroscópicos.
9
En otras palabras, es más usual medir parámetros de materia que parámetros de onda.
2.12. EL PRINCIPIO DE COMPLEMENTARIEDAD PARA LA DUALIDAD ONDA PARTÍCULA Y SU RELACIÓN CO
2.12. El principio de complementariedad para la dualidad onda partı́cula y
su relación con el principio de incertidumbre de Heisenberg
Figura 2.7: Variante del experimento de Young de la doble rendija, para el cual la placa opaca P, puede desplazarse
verticalmente.
La discusión sobre el experimento de la doble rendija nos ha mostrado que si bien la dualidad onda partı́cula
es necesaria para explicar los resultados, ambas manifestaciones parecen ser mutuamente excluyentes. La perfecta
determinación de las propiedades ondulatorias (patrón de interferencia con doble rendija) nos conduce a una total
ignorancia sobre la rendija por la cual pasa cada fotón (propiedad de “trayectoria” asociada a una partı́cula). Por
otro lado, la perfecta determinación de la rendija por la cual pasa cada fotón (determinación de sus propiedades
de partı́cula) conduce a la completa destrucción del patrón de interferencia (i.e. de sus propiedades ondulatorias).
Se dice entonces que los aspectos ondulatorio y material de la partı́cula son complementarios.
Vamos ahora a reconsiderar el experimento de la doble rendija para demostrar la profunda relación entre el
principio de complementariedad y el principio de incertidumbre de Heisenberg. Para ello analizaremos una variante
del experimento de la doble rendija ilustrada en la Fig. 2.7.
Asumamos que la placa opaca P sobre la cual se perforan las rendijas está montada sobre cojinetes que permiten
su desplazamiento vertical. Asumiremos que el foco de los fotones está muy lejos, de modo que podemos suponer
que todos los fotones inciden perpendicularmente sobre la placa P. Un fotón que golpea la placa de observación O
en el punto M (de coordenada x respecto al origen O), tuvo que sufrir un cambio de momento que fué absorbido
por P a fin de mantener el momento conservado. Nótese que si el fotón de momento p = hν/c pasa por la rendija
F1, el momento transferido a P es
p1 = −
hν
c
sin θ1 (2.74)
146 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
y si pasa por la rendija F2, tal momento transferido es
p2 = −
hν
c
sin θ2 (2.75)
Siendo θ1 el ángulo de deflexión del fotón cuando cruza la rendija F1 e impacta en el punto M. El ángulo θ2 se
define similarmente con la rendija F2. Por tanto, el momento transferido a P depende de la trayectoria del fotón,
puesto que depende de la rendija por la que pase.
Enviando los fotones uno por uno podemos construir el patrón de interferencia gradualmente sobre la pantalla
de observación. Aparentemente, este dispositivo nos permite construir tal patrón de interferencia asociado a la doble
rendija al tiempo que permite determinar la rendija por la cual pasa cada fotón. A priori pareciera que podemos
determinar completamente las caracterı́sticas corpusculares y ondulatorias de los fotones en forma simultánea.
Sin embargo, las franjas de interferencia no son visibles con este montaje. El error consiste en asumir que solo
los fotones poseen un carácter cuántico. Sin embargo, la placa P aunque es un objeto macroscópico también posee
un carácter cuántico. Si queremos discriminar por cual rendija pasó el fotón, la incertidumbre ∆p en la medida
del momento vertical de P debe ser suficientemente pequeña para determinar la diferencia entre p1 y p2
∆p ≪ |p2 − p1|
aplicando las relaciones de incertidumbre, la posición de la placa P se puede conocer a lo más dentro de un intervalo
de incertidumbre dado por
∆x 
~
∆p
≫
h
|p2 − p1|
(2.76)
si denotamos a la distancia entre las rendijas y d la distancia entre la placa P y la pantalla O, y si asumimos que
θ1 y θ2 son pequeños (i.e. a/d ≪ 1 y x/d ≪ 1) obtenemos
θ1 ≃ tan θ1 =
x − a/2
d
; θ2 ≃ tan θ2 =
x + a/2
d
|θ2 − θ1| ≃
a
d
los momentos p1 y p2 dados en las Ecs. (2.74, 2.75) nos dan
|p2 − p1| =
hν
c
|sin θ2 − sin θ1| ≃
hν
c
|θ2 − θ1| ≃
hν
c
a
d
=
h
λ
a
d
siendo λ la longitud de onda asociada al fotón. Sustituyendo esta relación en (2.76) se obtiene
∆x ≫
λd
a
(2.77)
pero (λd) /a es precisamente la separación entre franjas que se espera encontrar en el patrón de difracción sobre
la pantalla O. Ahora bien, si la posición vertical de las rendijas solo se puede determinar en un intervalo de
incertidumbre mayor a la separación de las franjas, es imposible observar el patrón de interferencia.
La discusión anterior nos muestra que la construcción de una teorı́a cuántica de la radiación requiere de la
construcción de una teorı́a cuántica de la materia para evitar contradicciones. En el ejemplo anterior, si trabajamos
la placa P como un sistema clásico material, invalidamos el principio de complementariedad de los dos aspectos
corpuscular y ondulatorio de la luz y por tanto, la teorı́a cuántica de la radiación. Se puede demostrar que dificulta-
des análogas surgen cuando se considera que solo la materia posee carácter cuántico. Por tanto, la consistencia del
principio de complementariedad requiere que tanto la materia como la radiación tengan caracterı́sticas cuánticas.
Otro aspecto que vale la pena discutir, es que en este ejemplo la naturaleza cuántica de P es esencial para un
adecuado entendimiento del fenómeno, a pesar de ser un sistema macroscópico. La razón estriba en que si bien el
sistema es macroscópico, las incertidumbres combinadas para el momento y la posición que se requieren en dicho
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDAS LIBRE 147
sistema para soslayar el principio de complementariedad, están en un umbral no permitido por las relaciones de
incertidumbre.
Podemos entonces precisar el principio de complementariedad enunciado por Niels Bohr diciendo que la
naturaleza ondulatoria y corpuscular de la radiación o de las partı́culas no pueden exhibirse al mismo tiempo
en la misma medida. Los conceptos clásicos de onda y partı́cula son mutuamente excluyentes cuando se utilizan
para describir fenómenos cuánticos. Puesto que la existencia de las dos caracterı́sticas de onda y partı́cula no
puede ser observada simultáneamente, éstas no generan conflicto la una con la otra en un mismo experimento. No
obstante, ambas son necesarias para la descripción de los fenómenos cuánticos. Las dos descripciones dan visiones
complemetarias de la realidad, no visiones contradictorias. Bohr ilustraba este principio con el ejemplo simple
de una moneda que tiene dos caras pero no podemos ver las dos caras simultáneamente, el ver una de las caras
excluye la posibilidad de ver la otra.
2.13. Evolución temporal de paquetes de ondas libre
Asumamos un paquete de ondas como el descrito por (2.56), la forma especı́fica del paquete en t = 0 está
dada por las condiciones iniciales. La evolución del paquete estará entonces dictaminada por las relaciones de
dispersión que dependen de la interacción de la partı́cula con el resto del universo. Puesto que no hemos generado
una ecuación dinámica para la partı́cula no podemos en general resolver la evolución temporal de una partı́cula
interactuante, sin embargo la relación de dispersión (2.54) nos permitirá resolver el problema de la evolución
temporal para una partı́cula libre.
En el caso más simple, un paquete unidimensional está constituı́do por una sola onda plana
ψ (x, t) = Aei(kx−ωt)
= Aeik(x− ω
k
t) = f

x −
ω
k
t

su parte real es
ψ (x, t) = A cos
h
k

x −
ω
k
t
i
su velocidad de propagación (velocidad de propagación del frente de onda i.e. de un punto con fase constante)
está dada por la velocidad con que se propaga el máximo correspondiente a xM = 0 en t = 0 (que corresponde a
fase total cero). Para cualquier tiempo la posición de este máximo corresponde a fase total cero
xM (t) −
ω
k
t = 0 ⇒ xM (t) =
ω
k
t
la velocidad de este máximo es entonces
dxM (t)
dt
= Vf (k) =
ω
k
(2.78)
como esta es la velocidad de un punto que define una fase total constante para todo tiempo (fase cero), llamaremos
a este término velocidad de fase de la onda plana, la cual solo depende de x y t por medio de x − ω
k t

.
Es bien sabido que para ondas electromagnéticas en el vacio Vf es independiente de k e igual a c. Todas las
ondas que constituyen el paquete viajan a la misma velocidad de modo que el paquete mantiene su forma. Sin
embargo, en un medio dispersivo la velocidad de fase está dada por
Vf (k) =
c
n (k)
siendo n (k) el ı́ndice de refracción relativo entre el vacı́o y el medio. En este caso cada onda componente viaja a
distinta velocidad, lo cual produce un cambio de forma del paquete con el tiempo. A medida que se propaga el
paquete se ensancha, fenómeno conocido como dispersión. Fı́sicamente, esto se debe a que el material responde de
forma distinta para cada longitud de onda componente.
148 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
Volviendo a nuestro caso de onda monocromática cuántica, si usamos las Ecs. (2.78, 2.54) vemos que la
velocidad de fase está dada por
Vf (k) =
ω
k
=
~k2
2mk
=
~k
2m
(2.79)
de modo que Vf es función explı́cita de k. Nótese que si usáramos la relación de dispersión dada por la ecuación
de onda, Ec. (2.55) entonces Vf no presentarı́a dispersión (Vf no depende de k) como ocurre efectivamente con
las ondas clásicas libres (como las ondas electromagnéticas libres).
Ahora analizaremos el caso de ondas que son superposición de ondas planas. Veremos a continuación que
cuando las diferentes ondas tienen diferentes velocidades de fase, la velocidad del máximo xM del paquete de onda
no es la velocidad de fase promedio dada por
ω0
k0
=
~k0
2m
como antes, comencemos con el ejemplo simple de la superposición de tres ondas planas similares a las descritas
en (2.60) pero ahora con variación temporal
ψ (x, t) =
g (k0)
√
2π

ei(k0x−ω0t)
+
1
2
ei[(k0− ∆k
2 )x−(ω0− ∆ω
2 )t] +
1
2
ei[(k0+ ∆k
2 )x−(ω0+ ∆ω
2 )t]

(2.80)
=
g (k0)
√
2π
ei(k0x−ω0t)

1 + cos

∆k
2
x −
∆ω
2
t

ψ (x, t) =
g (k0)
√
2π
e
ik0

x−
ω0
k0
t
 
1 + cos

∆k
2

x −
∆ω
∆k
t

(2.81)
puesto que las tres ondas tiene números de onda k0 y k0 ± ∆k, es claro que k0 es el número de onda promedio.
Similarmente, ω0 es la frecuencia angular promedio.
De la Ec. (2.81) se vé claramente que el máximo de |ψ (x, t)| que estaba en x = 0 cuando t = 0 está ahora en
el punto
xM (t) =
∆ω
∆k
t (2.82)
y no en el punto x = ω0t/k0. El origen de este resultado se puede apreciar en la Fig. 2.8, en (a) se representa la
Figura 2.8: Posición de tres máximos consecutivos (1) (2) (3) para cada una de las tres ondas planas de la super-
posición en la Ec. (2.81). (a) Configuración de los máximos en t = 0, para el cual hay interferencia constructiva
en x = 0, que se da con los máximos rotulados por (2). (b) Configuración en un instante posterior en el cual la
interferencia totalmente constructiva se da a la derecha de x con los máximos (3).
posición en t = 0 de tres máximos consecutivos de cada una de las partes reales de las tres ondas. Puesto que los
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDAS LIBRE 149
máximos denotados con (2) coinciden en x = 0, hay una interferencia constructiva en este punto lo cual nos da
el máximo de |ψ (x, t = 0)|. Puesto que la velocidad de fase aumenta con k según (2.79), tenemos que el máximo
(3) de la onda k0 + ∆k
2 termina alcanzando al máximo de la onda k0 también denotado por tres. Similarmente
el máximo (3) de k0 alcanzará al máximo de k0 − ∆k
2 denotado por (3). Un análisis detallado muestra que todos
coinciden en cierto tiempo t, determinando entonces el máximo xM (t) de |ψ (x, t)| por interferencia constructiva.
El cálculo detallado del punto donde esto ocurre reproduce la Ec. (2.82).
Analicemos finalmente el caso en el cual el paquete de ondas es arbitrario y consta de una superposición
contı́nua de ondas planas como en la Ec. (2.57). El corrimiento del centro del paquete se encuentra aplicando de
nuevo el método de fase estacionaria. Comparando la forma de ψ (x, t) con la de ψ (x, 0) Ecs. (2.57, 2.58) vemos
que si la transformada de Fourier en (2.57) no depende explı́citamente del tiempo, entonces ψ (x, t) se obtiene
a partir de ψ (x, 0) con la asignación ψ̄ (k) → ψ̄ (k) e−iω(k)t. Por tanto, el razonamiento dado en la pág. 142 se
mantiene válido reemplazando el argumento α (k) de ψ̄ (k) en la Ec. (2.63), por el argumento
α (k) → α (k) − ω (k) t (2.83)
la condición de fase estacionaria (2.71) se escribe ahora de la forma
d
dk
[kxM + α (k) − ω (k) t]k=k0
= 0 ⇒

xM +
dα
dk
−
dω (k)
dk
t

k=k0
= 0
Y la dinámica del centro del paquete estará dada por
xM (t) =

dω
dk

k=k0
t −

dα
dk

k=k0
que nos reproduce una vez más el resultado (2.82) solo que en este caso ∆ω y ∆k tienden a cero ya que hay un
barrido contı́nuo en estas variables. La velocidad del máximo del paquete de ondas es
Vg (k0) =
dxM (t)
dt
=

dω
dk

k=k0
conocida como velocidad de grupo del paquete. Con la relación de dispersión (2.54) para partı́cula libre y teniendo
en cuenta (2.79) tenemos que
Vg (k0) =
~k0
m
= 2Vf (k0) (2.84)
Notamos entonces dos diferencias importantes entre la onda asociada a la partı́cula libre cuántica y la solución
libre ondulatoria proveniente de la ecuación de onda. (a) Las ondas electromagnéticas clásicas libres no presentan
dispersión en tanto que la solución cuántica (ondulatoria) de partı́cula libre si presenta dispersión y (b) para
las ondas electromagnéticas libres la velocidad de grupo es menor que la de fase, mientras que para la solución
ondulatoria de partı́cla libre cuántica, la velocidad de grupo es mayor que la velocidad de fase10.
Nótese que el resultado (2.84) reproduce adecuadamente el lı́mite clásico ya que si ∆x y ∆p son ambos
despreciables, podemos hablar de la posición xM (t) y del momento p0 de la partı́cula. Pero entonces su velocidad
debe ser p0/m según la mecánica clásica, esto es compatible con la Ec. (2.84) obtenida en el marco cuántico con
p0 = ~k0, siempre que ∆x y ∆p sean ambos despreciables Vg se puede asociar a la velocidad de la partı́cula, que
es la velocidad del máximo del paquete.
Es posible también estudiar la forma en que evoluciona la forma del paquete. Si por ejemplo ∆p es una
constante de movimiento entonces ∆x se incrementa con el tiempo, (dipersión del paquete).
10
Nótese que el hecho de que la velocidad de grupo sea mayor a la de fase en la Ec. (2.84), no entra en contradicción con la relatividad,
puesto que nuestros resultados solo son válidos en un régimen no relativista, ya que la relación de dispersión (2.54) proviene de la
ecuación (2.53), la cual es no relativista.
150 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
2.14. Caracterización de paquetes de onda gaussianos
Estudiaremos perfiles de paquetes de onda ψ (x, 0) para los cuales la transformada de Fourier ψ̄ (k, 0) es
gaussiana. Este ejemplo especı́fico es de amplio uso en fı́sica y tiene la ventaja de permitir ilustrar los conceptos
asociados a paquetes de onda con cálculos exactos. Estudiaremos además la evolución temporal de estos paquetes.
2.14.1. Integrales básicas para paquetes gaussianos
El cálculo del paquete de onda (y muchos otros cálculos relativos a paquetes de onda gaussianos) requiere
evaluar una integral del tipo
I (α, β) =
Z ∞
−∞
e−α2(ξ+β)2
dξ
donde α y β son números complejos. Es necesario que Re α2

 0 para que la integral converja. El teorema del
residuo nos permite encontrar que
I (α, β) = I (α, 0)
de modo que la integral no depende de β. Si se satisface la condición |Arg (α)|  π/4 (lo cual siempre es posible
si Re α2

 0), esta integral se puede escribir como
I (α, 0) =
1
α
I (1, 0)
y solo resta calcular I (1, 0), lo cual se puede hacer como una integral doble en el plano XY usando coordenadas
polares
I (1, 0) =
Z ∞
−∞
e−ξ2
dξ =
√
π
de lo cual se obtiene
I (α, β) =
Z ∞
−∞
e−α2(ξ+β)2
dξ =
√
π
α
(2.85)
2.14.2. Perfiles de paquetes de onda gaussianos
Consideremos el modelo unidimensional de una partı́cula libre cuya función de onda en t = 0 tiene el perfil
ψ (x, 0) =
√
a
(2π)3/4
Z ∞
−∞
e− a2
4
(k−k0)2
eikx
dk (2.86)
el cual resulta de superponer ondas planas eikx con coeficientes de Fourier de la forma
1
√
2π
ψ̄ (k, 0) =
√
a
(2π)3/4
e− a2
4
(k−k0)2
(2.87)
para calcular ψ (x, 0) es conveniente reescribir la exponencial en (2.86) de modo que los términos en k queden
como un cuadrado perfecto a fin de compararlos con (2.85)
−
a2
4
(k − k0)2
+ ikx = −
a2
4

k − k0 −
2ix
a2
2
+ ik0x −
x2
a2
con lo cual la Ec. (2.86) queda
ψ (x, 0) =
√
a
(2π)3/4
eik0x
e− x2
a2
Z ∞
−∞
e
− a2
4
h
k−k0− 2ix
a2
i2
dk
2.15. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 151
comparando con (2.85) vemos que α = a/2 de modo que
ψ (x, 0) =
√
a
(2π)3/4
eik0x
e− x2
a2
2
√
π
a
ψ (x, 0) =

2
πa2
1/4
eik0x
e− x2
a2 (2.88)
vemos entonces que la transformada de Fourier de un paquete gaussiano es también gaussiana. El módulo al
cuadrado del paquete y de su transformada en t = 0 (que estarán relacionados con las densidades de probabilidad
asociadas a la posición y momento respectivamente, para una partı́cula en t = 0) se obtienen de (2.87, 2.88), y
son
|ψ (x, 0)|2
=
r
2
πa2
e− 2x2
a2 =
r
2
πa2
e
−

x
a/
√
2
2
;
ψ̄ (k, 0)
2
=
a e− a2
2
(k−k0)2
√
2π
=
a exp
(
−

k−k0
(
√
2/a)
2
)
√
2π
(2.89)
y la curva asociada a este módulo es una tı́pica campana de Gauss. El centro del paquete de onda corresponde al
máximo de |ψ (x, 0)|2
y se sitúa en x = 0. Esto resultado también se puede obtener por aplicación de la Ec. (2.70).
2.14.3. Relaciones de incertidumbre para paquetes gaussianos
Al igual que para todo paquete que no posee nodos, el ancho de una función gaussiana f (x) = e−x2/b2
no
puede ser definido en forma unı́voca. Sin embargo, es costumbre definir tal ancho de modo que cuando x varı́a
entre ±∆x la función f (x) se haya reducido en un factor de 1/
√
e, esto conduce a un ancho
f (x) = exp

−
x
b
2

→ ∆x =
b
√
2
(2.90)
esta definición tiene la ventaja de coincidir con la definición de la raı́z de la desviación media cuadrática, como
veremos más adelante. Con esta convención podemos definir el ancho asociado al cuadrado del paquete de onda
|ψ (x, 0)|2
y de su transformada de Fourier
ψ̄ (k, 0)
2
en la Ec. (2.89)11
∆x =
a
2
; ∆k =
1
a
⇒ ∆p =
~
a
(2.91)
con lo cual se obtiene
(∆x) · (∆p) =
~
2
(2.92)
relación que es compatible con el principio de incertidumbre. Nótese además que el principio de incertidumbre
se escribe en general en la forma (∆x) · (∆p)  ~/2. Esto implica que el principio de incertidumbre permite en
general, que el producto del ancho de la función con el ancho de su transformada de Fourier adquiera un valor
mayor al lı́mite inferior. Si aceptamos a ~/2 como el lı́mite inferior, vemos que los paquetes de onda gaussianos
predicen una igualdad, es decir que los productos de las incertidumbres siempre tienen el menor valor posible. En
tal sentido decimos que los paquetes de onda gaussianos son paquetes de “mı́nima incertidumbre”.
2.15. Evolución temporal de paquetes de onda gaussianos (opcional)
La Ec. (2.56) junto con la relación de dispersión (2.54) nos dan la forma del perfil de un paquete de onda
asociado a partı́cula libre, donde el paquete inicial tiene forma arbitraria. Aplicando estas ecuaciones al caso
11
Es más adecuado definir los anchos asociados a las funciones al cuadrado ya que éstas son las que tienen interpretación fı́sica
directa.
152 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
especı́fico en que el paquete inicial posee el perfil gaussiano dado por la Ec. (2.87), se tiene que
ψ (x, t) =
√
a
(2π)3/4
Z ∞
−∞
e− a2
4
(k−k0)2
ei[kx−ω(k)t]
dk ; ω (k) =
~k2
2m
(2.93)
veremos que el paquete permanece gaussiano para todo tiempo t. Se puede agrupar la parte dependiente de k de
los exponentes para formar un cuadrado perfecto, con el fin de comparar (2.93) con (2.85) y obtener
ψ (x, t) =

2a2
π
1/4
eiϕ

a4 + 4~2t2
m2
1/4
eik0x
exp


−
h
x − ~k0
m t
i2
a2 + 2i~t
m



ϕ ≡ −θ −
~k2
0
2m
t ; tan 2θ =
2~
ma2
t
el módulo al cuadrado del paquete (densidad de probabilidad) en el tiempo t está dado por
|ψ (x, t)|2
=
r
2
πa2
1
q
1 + 4~2t2
m2a4
exp





−
2a2

x − ~k0
m t
2
a4 + 4~2t2
m2





(2.94)
debemos ahora calcular Z ∞
−∞
|ψ (x, t)|2
dx (2.95)
una forma serı́a empleando (2.85) para integrar (2.94). No obstante, es más simple observar de la expresión (2.93)
que la transformada de Fourier de ψ (x, t) viene dada por
ψ̄ (k, t) = e−iω(k)t
ψ̄ (k, 0) (2.96)
se vé entonces que
ψ̄ (k, t)
=
ψ̄ (k, 0)
. Por otro lado, es bien conocido del análisis de Fourier, que
ψ̄ (k, t)
=
|ψ (x, t)| (ecuación de Parseval-Plancherel) para todo tiempo, con lo cual se obtiene
|ψ (x, t)| =
ψ̄ (k, t)
=
ψ̄ (k, 0)
= |ψ (x, 0)|
por tanto, la norma del paquete es independiente del tiempo y por tanto también la integral (2.95). Este resultado es
importante para la conservación de la probabilidad y de hecho para la consistencia de la interpretación de |ψ (x, t)|2
como una densidad de probabilidad. Veremos más adelante que esto resulta del hecho de que el Hamiltoniano de
la partı́cula libre es hermı́tico.
Ahora bien, la Ec. (2.94) nos dice que la densidad de probabilidad es gaussiana centrada en
xM = V0t ; V0 ≡
~k0
m
donde V0 es la velocidad del paquete. Esta expresión es consistente con la velocidad de grupo dada por la Ec.
(2.84).
2.15.1. Dispersión del paquete de onda gaussiano (opcional)
Tomando la expresión (2.90) para el ancho ∆x (t) del paquete de onda, y teniendo en cuenta el perfil del
paquete Ec. (2.94), tenemos que
∆x (t) =
a
2
r
1 +
4~2t2
m2a4
(2.97)
2.15. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 153
Figura 2.9: Dispersión de un paquete de onda Gaussiano libre. El ancho del paquete se reduce a medida que se
propaga desde t = −∞ hasta t=0. Posteriormente, el paquete comienza a ensancharce indefinidamente a medida
que se propaga.
esta ecuación nos muestra que la evolución del paquete no consiste simplemente en una propagación con velocidad
V0. El paquete también sufre deformación. Cuando t se incrementa desde −∞ hasta cero, el ancho del paquete
decrece y alcanza su valor mı́nimo en t = 0, a partir de entonces el paquete se ensancha indefinidamente (dispersión
del paquete de onda). Esta situación se ilustra en la Fig. 2.9.
Adicionalmente, la Ec. (2.94) para el perfil del paquete nos muestra que la altura también varı́a, pero de forma
opuesta al ancho, de tal manera que la norma de ψ (x, t) permanece constante.
Es natural ahora preguntarse por el comportamiento de la forma del “paquete de ondas en el espacio de
los momentos (o espacio recı́proco)” con el tiempo. Las propiedades de la transformada de Fourier ψ̄ (k, t) son
totalmente distintas, vemos por ejemplo que de acuerdo a la Ec. (2.96) se tiene que
ψ̄ (k, t)
=
ψ̄ (k, 0)
de modo que el momento promedio del paquete ~k0 y la dispersión del momento ∆p = ~∆k son constantes en
el tiempo. Veremos más adelante que esto es una consecuencia de que el momento lineal es una constante de
movimiento para la partı́cula libre. En virtud de la ausencia de interacción, la distribución de momentos de una
partı́cula libre no cambia. Adicionalmente, dado que ∆p es constante y que ∆x crece con el valor absoluto del
tiempo, es claro que estos ya no son paquetes de mı́nima incertidumbre excepto para t = 0, esto se debe a que
el paquete en el espacio recı́proco (i.e. la transformada de Fourier del paquete de ondas en el espacio) ya no es
puramente gaussiano en t 6= 0, como se puede ver en la Ec. (2.96).
Cuánticamente, la existencia de una dispersión del momento ∆p = ~∆k significa que la velocidad de la partı́cula
solo se conoce en un intervalo ∆v = ∆p/m y usando la última de las Ecs. (2.91), vemos que ∆v = ~/ma. Este
hecho posee un interesante análogo clásico: imaginemos un conjunto de partı́culas clásicas que en t = 0 están
localizadas en x = 0 y que tienen una dispersión ∆v = ~/ma de sus velocidades. Es claro que en el tiempo t la
dispersión de sus posiciones será
∆xcl = |t| ∆v =
~ |t|
ma
(2.98)
donde estamos asumiendo que se calcula su dispersión también para tiempos negativos anteriores a t = 0. La
dispersión decrece linealmente para la evolución temporal desde un t  0 y crece linealmente con t a partir de
t = 0. La Fig. 2.10, muestra una comparación entre el comportamiento temporal de los anchos clásico ∆xcl y
cuántico ∆x dados por las Ecs. (2.97, 2.98). Vemos que cuando |t| → ∞ las dos gráficas coinciden, dado que las
rectas correspondientes al ancho clásico son las ası́ntotas de la hipérbola cuántica. Por tanto, para |t| muy grande
podemos decir que hay un comportamiento cuasi-clásico del ancho cuántico ∆x. Sin embargo, cuando |t| → 0, el
comportamiento cuántico difiere cada vez más del clásico. Esto se debe a que la partı́cula cuántica debe siempre
satisfacer el principio de incertidumbre de Heisenberg ∆x ∆p ≥ ~/2 y dado que ∆p es fijo, éste impone un lı́mite
inferior para ∆x que el sistema clásico no tiene que obedecer (efectivamente nuestro sistema clásico no poseı́a
154 CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS
Figura 2.10: Comparación entre el comportamiento con el tiempo de un ∆x cuántico (hipérbola) y su análogo
clásico ∆xcl (rectas).
dispersión en la posición para t = 0 ya que todas las partı́culas estaban en x = 0). No obstante, este análogo
clásico debe tomarse con cuidado. Por ejemplo, en nuestro sistema clásico la dispersión se generó con un conjunto
de partı́culas, en tanto que la dispersión cuántica esta asociada a un conjunto de ondas asociadas a UNA SOLA
partı́cula.
Vale la pena anotar que aunque hemos analizado la dispersión de un paquete de ondas libres cuya condición
inicial consta de componentes gaussianas, la dispersión se presenta para un paquete libre bajo cualquier forma
inicial del paquete, y la variación del ancho del paquete con el tiempo tiene la forma mostrada en la Fig. 2.10.
Combinando las Ecs. (2.91, 2.97) vemos que
∆x · ∆p =
~
2
r
1 +
4~2t2
m2a4
⇒ ∆x · ∆k =
1
2
r
1 +
4~2t2
m2a4
(2.99)
para t = 0 el lı́mite inferior está en el mismo orden de magnitud que el dado en la Ec. (2.72)12 Pág. 142. Sin
embargo, para tiempos grandes en valor absoluto, el lı́mite inferior de (2.99) se aleja mucho de aquél que se
estimó en (2.72). Para entender esta discrepancia, recordemos que de acuerdo con la Ec. (2.64) Pág. 140, nuestro
tratamiento general asumió que la fase α (k) de la transformada de Fourier se podı́a aproximar a una función
lineal dentro del rango ∆k. Despreciar los términos no lineales en la expansión (2.64) equivale a decir que
(∆k)2

d2α (k)
dk2

k=k0
≪ 2π (2.100)
de no ser ası́ la contribución de segundo orden a α (k) no será mucho menor a 2π dentro del dominio k0 ± ∆k. En
nuestro contexto, puesto que ∆k ≃ 1/a y de la Ec. (2.93) se tiene que α (k) = − ~k2/2m

t, la condición (2.100)
se escribe como
~t
a2m
≪ 2π (2.101)
esta condición se cumple en t = 0 y tiempos t ≪ 2πa2m/~. En contraste, falla para tiempos suficientemente
grandes para los cuales el lı́mite inferior en (2.99) difiere sustancialmente de aquél en la Ec. (2.72).
12
Recordemos que para encontrar la Ec. (2.72), se asumió que la transformada de Fourier tenı́a una forma similar (en perfil genérico)
a una campana de Gauss. Esto naturalmente coincide con nuestro actual tratamiento. Observemos además que la Ec. (2.72) expresa
una desigualdad que muestra la vaguedad del lı́mite inferior.
Capı́tulo 3
Ecuación de Schrödinger y sus propiedades
Hemos estudiado la dualidad onda partı́cula partiendo de los postulados de De Broglie y hemos analizado el
comportamiento de la onda asociada a una partı́cula libre. Sin embargo, si consideramos un sistema de una o más
partı́culas interactuantes será necesario generar una ecuación de movimiento que gobierne la dinámica de la onda
asociada. Si bien esta ecuación de movimiento se postulará, existen ciertos argumentos de plausibilidad para su
construcción.
3.1. Plausibilidad de la ecuación de Schrödinger
Si aceptamos la validez de los postulados de De Broglie, debemos encontrar una ecuación de movimiento que
nos describa la propagación de las ondas piloto y su relación con la dinámica de la partı́cula, para el caso en que
la partı́cula interactúe con su entorno. Por simplicidad asumiremos un caso unidimensional en esta sección.
El punto de partida será entonces las ecuaciones de De Broglie aplicadas a una partı́cula material
λ = h/p ; ν = E/h (3.1)
ahora bien, a pesar de que las relaciones de De Broglie son consistentes con la teorı́a de la relatividad (de hecho,
fueron inspiradas por las relaciones análogas en los fotones), vamos a plantear una formulación no relativista, esto
con el fin de evitar el problema del manejo de la probabilidad que surge de la posibilidad de creación y aniquilación
de partı́culas materiales. Tomaremos entonces la relación no relativista (corpuscular) entre energı́a y momento
E =
p2
2m
+ V (3.2)
siendo m = m0 la masa en reposo de la partı́cula. La Ec. (3.1) nos muestra que un cambio en la definición de
energı́a (por ejemplo si tomáramos la relación relativista) nos cambiarı́a el valor de ν. Los experimentos descritos
hasta ahora no han explorado la validez de la relación (3.2), de modo que las predicciones que la ecuación dinámica
haga sobre una partı́cula interactuante deben ser corroboradas por los experimentos.
Es claro que para una partı́cula libre, los resultados deben poder obtenerse con cualquier potencial constante
(no necesariamente cero) aplicado a la Ec. (3.2). Es fácil verificar que un potencial constante predice que la
velocidad de grupo de la onda piloto corresponde a p/m y por tanto a la velocidad de la partı́cula, combinando
(3.1) con (3.2) se tiene que
ν =
E
h
=
p2
2mh
+
V
h
; K ≡
1
λ
=
p
h
teniendo en cuenta que V es constante, tenemos
dν =
2p dp
2mh
, dK =
dp
h
155
156 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Ahora bien, teniendo en cuenta que
k ≡ 2πK ; ω ≡ 2πν
la velocidad de grupo queda
Vg =
dω
dk
=
dν
dK
=
p dp
mh
h
dp
=
p
m
= vpartı́cula
y podemos reescribir las relaciones de De Broglie en la forma
p = ~k ; E = ~ω (3.3)
si insertamos estas relaciones en (3.2) obtenenemos la siguiente relación de Dispersión
~2k2
2m
+ V (x, t) = ~ω (3.4)
tomaremos como prototipo la ecuación para la partı́cula libre con potencial constante. Las consideraciones ante-
riores nos dicen que la ecuación de movimiento que genere la función de onda ψ (x, t) (i.e. la dinámica de las ondas
piloto), debe cumplir las siguientes propiedades
1. Debe ser consistente con las Ecs. (3.1, 3.2). Es decir debe cumplir los postulados de De Broglie y la relación
no relativista entre E y p.
2. Debe ser lineal y homogénea en ψ (x, t) con el fin de que sea válido el principio de superposición que a su vez
nos genera los fenómenos ondulatorios de interferencia. Esto implica que si ψ1 (x, t) y ψ2 (x, t) son soluciones
de la ecuación una combinación lineal de ellas también es solución.
3. En general, consideraremos potenciales que solo dependen de la posición y el tiempo V = V (x, t). Cuando
el potencial es constante la partı́cula es libre y por tanto se deben conservar E y p, lo cual a su vez implica
que se conservan λ = 2π/k y ν de acuerdo con las relaciones (3.1).
4. Las soluciones para partı́cula libre son funcionalmente idénticas a las soluciones de la ecuación de onda
homogénea, pero deben cumplir con una relación de dispersión que sea consistente con la Ec. (3.4) con
V constante, en vez de la relación de dispersión para ondas libres dada por (2.55), lo cual nos dice que
la ecuación de onda no es la ecuación dinámica para la función de onda ψ (r, t). Entonces la ecuación de
movimiento para partı́cula libre debe tener soluciones en forma de ondas viajeras con número de onda y
frecuencia constantes.
5. Lo anterior nos lleva a postular que funciones de onda de la forma Aei(kx−ωt) son soluciones para partı́cula
libre (i.e. con potencial constante), ya que estas funciones son soluciones de la ecuación de onda homogénea
que corresponden a ondas viajeras con número de onda y frecuencia constantes, y que gracias a las relaciones
de De Broglie, también corresponden a momento y energı́a conservados.
La linealidad y homogeneidad prohibe términos del tipo [ψ (x, t)]2
(no lineales) o términos independientes de
ψ (x, t) (términos inhomogéneos o fuentes). Puesto que la mayorı́a de ecuaciones dinámicas de la Fı́sica son a lo
más de segundo orden, postularemos que los términos lineales son a lo más de segundo orden en el espacio y el
tiempo, y posiblemente un término lineal en ψ (x, t). Parametrizaremos a la ecuación en la forma siguiente
a1
∂ψ (x, t)
∂x
+ a2
∂2ψ (x, t)
∂x2
− b1
∂ψ (x, t)
∂t
− b2
∂2ψ (x, t)
∂t2
+ c ψ (x, t) = 0
asumamos que la solución de partı́cula libre es ψ (x, t) = Aei(kx−ωt), además se debe cumplir la relación de
dispersión (3.4) con V constante. Esta relación de dispersión contiene un término proporcional a k2 que se obtendrı́a
de una segunda derivada espacial de la onda plana, y un término lineal en ω que se puede extraer de una primera
3.1. PLAUSIBILIDAD DE LA ECUACIÓN DE SCHRÖDINGER 157
derivada temporal de la onda plana. La ausencia de un término lineal en k y de un término cuadrático en ω
sugiere la ausencia de primeras derivadas espaciales y de segundas derivadas temporales. Finalmente, la presencia
del potencial en (3.4) sugiere la presencia de un término lineal en ψ de la forma V ψ. El ansatz para la solución se
reduce a
a2
∂2ψ (x, t)
∂x2
+ V ψ (x, t) = b1
∂ψ (x, t)
∂t
(3.5)
ahora debemos ajustar los parámetros a2 y b1 de manera que exista una solución tipo onda plana que reproduzca
la relación de dispersión (3.4). Recordemos que en mecánica clásica, el carácter complejo de las soluciones de la
ecuación de onda se introduce solo por conveniencia y la solución Fı́sica es la parte real de la solución compleja.
Por este motivo si bien podemos insertar una solución tipo onda plana en (3.5), es razonable intentar primero usar
la solución real para la ecuación de onda clásica como prototipo de solución, insertaremos entonces una función
de onda de la forma
ψ (x, t) = cos (kx − ωt) (3.6)
teniendo en cuenta que k, ω y V son constantes, se tiene que
∂2ψ (x, t)
∂x2
= −k2
cos (kx − ωt) ;
∂ψ
∂t
= ω sin (kx − ωt)
y al insertar estos resultados en (3.5) obtenemos
−a2k2
cos (kx − ωt) + V cos (kx − ωt) = b1ω sin (kx − ωt)
V − a2k2

cos (kx − ωt) = b1ω sin (kx − ωt)
pero no es posible ajustar los parámetros para que esta relación sea válida para todo x, t, de modo que la solución
clásica dada por (3.6) no es compatible con la relación de dispersión de la teorı́a. Aún podemos tratar de encontrar
una solución real si agregamos una fase adicional en la forma cos (kx − ωt + δ) que es equivalente a escribir una
solución de la forma
ψ (x, t) = cos (kx − ωt) + γ sin (kx − ωt) (3.7)
lo cual también se puede postular observando que en tal caso ambas derivadas tendrán senos y cosenos que
permitirán igualar coeficientes adecuadamente
∂2ψ (x, t)
∂x2
= −k2
cos (kx − ωt) − γk2
sin (kx − ωt) ;
∂ψ
∂t
= ω sin (kx − ωt) − γω cos (kx − ωt)
que al insertarlos en (3.5) nos da
−a2k2
[cos (kx − ωt) + γ sin (kx − ωt)] + V [cos (kx − ωt) + γ sin (kx − ωt)]
= b1ω [sin (kx − ωt) − γ cos (kx − ωt)]
quedando
−a2k2
+ V + b1ωγ

cos (kx − ωt) + −a2k2
γ + V γ − b1ω

sin (kx − ωt) = 0
Los coeficientes de seno y coseno deben anularse para que esta relación sea válida para todo x, t. Tenemos
entonces dos ecuaciones con tres incógnitas (a2, b1, γ) que junto con la relación de dispersión (3.4), nos da
−a2k2
+ V + b1ωγ = 0 ; −a2k2
γ + V γ − b1ω = 0 ;
~2k2
2m
+ V = ~ω (3.8)
las dos primeras ecuaciones se pueden reescribir como
−a2k2
+ V = −b1ωγ ; −a2k2
+ V =
b1
γ
ω ⇒ −b1ωγ =
b1
γ
ω
⇒ −γ =
1
γ
⇒ γ2
= −1
158 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
tenemos entonces
γ = ±
√
−1 = ±i
sustituyendo en la primera de las Ecs. (3.8)
−a2k2
+ V ± iωb1 = 0 ⇒ −a2k2
+ V = ∓iωb1
al comparar esta expresión con la tercera de las Ecs. (3.8)
−a2 =
~2
2m
; ∓ib1 = ~
tenemos entonces dos soluciones que dependen de la elección del signo de γ, la elección más usual es
γ = i ; a2 = −
~2
2m
; b1 = i~
que al reemplazarlo en (3.5) nos da
−
~2
2m
∂2ψ
∂x2
+ V ψ = i~
∂ψ
∂t
que se ha derivado para un potencial constante V . Ahora postularemos que la relación se mantiene válida para
un potencial arbitrario de la forma V (x, t). Se obtiene entonces
−
~2
2m
∂2ψ
∂x2
+ V (x, t) ψ = i~
∂ψ
∂t
(3.9)
expresión conocida como la ecuación de Schrödinger. Por supuesto podemos postular su extensión a tres dimen-
siones como
−
~2
2m
∇2
ψ (r, t) + V (r, t) ψ (r, t) = i~
∂ψ (r, t)
∂t
(3.10)
Nótese que γ = ±i, lo cual indica que la pretendida solución real (3.7) nos proporciona inevitablemente
una solución compleja tipo onda plana. Vemos que hay una diferencia con las soluciones de onda clásica que se
toman complejas solo por conveniencia. En contraste, para la ecuación de Schrödinger no pudimos encontrar una
solución real consistente con las relaciones de dispersión para partı́cula libre, el carácter de la solución es en esencia
complejo. Esto se refleja en el factor imaginario que aparece a la derecha de la ecuación (3.9) de Schrödinger.
3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial
escalar independiente del tiempo: estados estacionarios
Supongamos que una partı́cula de masa m está sometida a un potencial V (r). La ecuación de Schrödinger
(3.10) se escribe entonces
−
~2
2m
∇2
ψ (r, t) + V (r) ψ (r, t) = i~
∂ψ (r, t)
∂t
(3.11)
plantearemos una separación de variables para la solución
ψ (r, t) = χ (t) ϕ (r) (3.12)
al introducirlo en la Ec. (3.11) se obtiene
−
~2
2m
χ (t) ∇2
ϕ (r) + V (r) χ (t) ϕ (r) = i~ϕ (r)
∂χ (t)
∂t
3.2. ECUACIÓN DE SCHRÖDINGER CON POTENCIAL ESCALAR INDEPENDIENTE DEL TIEMPO 159
dividiendo a ambos lados por χ (t) ϕ (r) se escribe
−
~2
2m
∇2ϕ (r)
ϕ (r)
+ V (r) = i~
1
χ (t)
∂χ (t)
∂t
el miembro izquierdo solo depende de la posición en tanto que el derecho depende solo del tiempo. Por tanto
ambos miembros deben ser iguales a una constante que por comodidad la tomaremos como ~ω, de momento ω es
solo una constante a ajustar, aunque es claro que debe tener dimensiones de frecuencia angular. Tenemos entonces
que
i~
1
χ (t)
∂χ (t)
∂t
= ~ω ⇒
∂χ (t)
∂t
= −iωχ (t)
χ (t) = Ae−iωt
(3.13)
y la ecuación para la parte espacial es
−
~2
2m
∇2ϕ (r)
ϕ (r)
+ V (r) = ~ω ⇒
−
~2
2m
∇2
ϕ (r) + V (r) ϕ (r) = ~ωϕ (r) (3.14)
combinando las Ecs. (3.12, 3.13), la solución para la ecuación de Schrödinger (3.11) es
ψ (r, t) = ϕ (r) e−iωt
(3.15)
donde hemos absorbido el factor A en la solución ϕ (r) de la ecuación (3.14).
Nótese que la solución (3.15) nos conduce a una densidad de probabilidad independiente del tiempo, aunque
inhomogénea
|ψ (r, t)|2
= |ϕ (r)|2
razón por la cual se conoce como solución estacionaria de la ecuación de Schrödinger. Ahora bien, la Ec.
(3.15) nos muestra que la constante de integración ω corresponde efectivamente a la frecuencia angular asociada
a la función de onda estacionaria. Nótese que en la solución estacionaria, solo aparece un valor de frecuencia
angular ω que a su vez nos conduce a un valor bien definido de la energı́a de acuerdo con la relación de Planck
Einstein E = ~ω. En mecánica clásica un potencial independiente del tiempo nos lleva a la conservación de la
energı́a total. En mecánica cuántica, lo que podemos decir es que para potenciales independientes del tiempo
existen estados de energı́a bien determinada. La Ec. (3.14) se puede escribir entonces como

−
~2
2m
∇2
+ V (r)

ϕ (r) = Eϕ (r) (3.16)
que se puede reescribir como
Hϕ (r) = Eϕ (r) ; H ≡ −
~2
2m
∇2
+ V (r) (3.17)
siendo H un operador diferencial que es claramente lineal
H [λ1ϕ1 (r) + λ2ϕ2 (r)] = λ1Hϕ1 (r) + λ2Hϕ2 (r)
y vemos que (3.17) es una ecuación de valores propios para el operador H en la cual ϕ (r) son las funciones propias
(vectores propios) y las energı́as E son los valores propios. Las energı́as permitidas para la partı́cula son entonces
los valores propios del operador H. Nótese que no cualquier solución ϕ (r) de la ecuación de Schrödinger es una
solución fı́sica, debemos imponer que sea de cuadrado integrable, esta imposición restringirá los valores permitidos
de energı́a y nos llevará a una cuantización de esta cantidad.
160 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
A la Ec. (3.17) se le llama usualmente ecuación de Schrödinger independiente del tiempo, en tanto que a (3.11)
se le denomina ecuación de Schrödinger dependiente del tiempo. La Ec. (3.11) nos da la evolución de la función
de onda para un estado arbitrario de la partı́cula, en tanto que la Ec. (3.17) solo nos da los estados estacionarios
de ésta.
Dado que tenemos un conjunto de valores permitidos de la energı́a (autoresultados o autovalores), vamos a
rotular las energı́as y las autofunciones de la forma
Hϕn,m (r) = Enϕn,m (r)
donde tanto n como m pueden simbolizar un ı́ndice contı́nuo o discreto o incluso varios ı́ndices. El ı́ndice m me
indica la posibilidad de degeneración, es decir de varias autofunciones linealmente independientes que pertenecen
al mismo valor propio En. Los estados estacionarios de la partı́cula son de la forma
ψn,m (r, t) = ϕn,m (r) e−iEnt/~
ψn,m (r, t) es una solución de la ecuación de Schrödinger Ec. (3.11), y en virtud de la linealidad de esta ecuación,
una superposición de las soluciones estacionarias es también solución
ψ (r, t) =
X
n
X
m
cnmϕn,m (r) e−iEnt/~
(3.18)
en realidad es usual que se requiera la superposición puesto que soluciones arbitrarias no satisfacen en general
las condiciones iniciales y de frontera que pide un problema especı́fico. La superposición garantiza que podemos
obtener cualquier estado siempre que las funciones ϕnm (r) sean completas como funciones espaciales (las funciones
temporales son ondas planas y por tanto completas), esto requiere a su vez que el operador H tenga el carácter
de observable.
Para t = 0 la Ec. (3.18) nos da
ψ (r, 0) =
X
n
X
m
cnmϕn,m (r) (3.19)
de modo que si conocemos el estado inicial del sistema (el cual es en principio arbitrario) podemos descomponerlo
en la base de las autofunciones ϕn,m de H (siempre que H sea un observable). Para obtener la evolución temporal
basta con multiplicar cada término en (3.19) por e−iEnt/~, debe aclararse que cada término corresponde a una fase
diferente y por tanto la superposición ya no corresponde en general a un estado estacionario.
Es esencial tener presente que toda esta discusión solo es válida cuando V (r) no es función explı́cita del tiempo,
de otro modo no es posible en general tener soluciones con separación de variables.
3.3. Propiedades generales de la ecuación de Schrödinger
Retornaremos ahora a la forma general de la ecuación de Schrödinger Ec. (3.10)

−
~2
2m
∇2
+ V (r, t)

ψ (r, t) = i~
∂ψ (r, t)
∂t
H (r, t) ψ (r, t) = i~
∂ψ (r, t)
∂t
(3.20)
en la cual el potencial puede depender del espacio y del tiempo. La primera observación relevante es que el operador
H es hermı́tico. Para ver esto, basta con tener en cuenta que desde el punto de vista de los kets, las funciones de
onda son kets escritos en la representación de coordenadas, y en tal representación el operador H se puede escribir
como
H =
(−i~∇) (−i~∇)
2m
+ V (r, t) =
P2
2m
+ V (r, t) (3.21)
3.3. PROPIEDADES GENERALES DE LA ECUACIÓN DE SCHRÖDINGER 161
siendo P el operador definido por las Ecs. (1.188), que en representación de la base {|ri} está dado por la Ec.
(1.191). Ya vimos en la sección 1.43.4 que este operador es Hermı́tico, y como V (r, t) es una función real, también
es hermı́tica1. En consecuencia H también es hermı́tico. Nótese que esto es indispensable para que el espectro de
este operador (la energı́a) sea real (ver teorema 1.62).
Ahora bien, recordemos que a cada función de onda en el espacio ̥ le asociamos un ket en el espacio E en la
forma ψ (r, t) ↔ |ψ (t)i es conveniente escribir la ecuación de Schrödinger como una ecuación dinámica de los kets
(en lugar de la función de onda), debido a que una ecuación planteada para el vector abstracto se puede tomar
de manera muy sencilla en cualquier representación. Es fácil ver que la Ec. de Schrödinger para kets de la forma
i~
d
dt
|ψ (t)i = H (t) |ψ (t)i (3.22)
conduce a la Ec. de Schrödinger (3.20) cuando usamos la representación de la base {|ri}, siempre que H (t) sea el
operador (abstracto) que en representación de la base {|ri} esté dado por (3.21). Para verlo aplicamos el bra hr|
a ambos lados de (3.22)
i~ hr|
d
dt
|ψ (t)i = hr| H (t) |ψ (t)i
dado que |ψ (t)i no depende de r, la derivada total o parcial en el tiempo coinciden para el ket. Adicionalmente,
cuando el ket se transforma en función de onda la cual es un campo, debe tenerse en cuenta que las coordenadas r
en ψ (r, t) son lugares geométricos y no variables dinámicas, por tanto las variables r y t son todas independientes,
de modo que2
i~ hr|
d
dt
|ψ (t)i = i~ hr|
∂
∂t
|ψ (t)i =
∂
∂t
hr |ψ (t)i
i~ hr|
d
dt
|ψ (t)i =
∂ψ (r, t)
∂t
y de la condición establecida para H (t) se tiene que
hr| H (t) |ψ (t)i = H (r, t) hr |ψ (t)i = H (r, t) ψ (r, t)
con lo cual se reproduce la Ec. de Schrödinger (3.20) en representación de coordenadas. Veamos las principales
propiedades de la ecuación de Schrödinger.
3.3.1. Determinismo en las soluciones
Puesto que la ecuación es de primer orden en el tiempo, dado un estado inicial |ψ (t0)i el estado |ψ (t)i en un
tiempo t subsequente está determinado, esto se debe a que la ecuación no es invariante ante t → −t (como sı́ ocurre
con la ecuación de onda). No hay indeterminación en la evolución del estado del sistema. La indeterminación se
produce es con el proceso de medida de una cantidad Fı́sica, en cuyo caso el vector de estado sufre un cambio
abrupto y parcialmente impredecible (ya que se puede evaluar una probabilidad para cada cambio abrupto posible).
Sin embargo, en el tiempo comprendido entre dos medidas, el vector de estado evoluciona en forma perfectamente
determinista según la Ec. (3.22).
3.3.2. Principio de superposición
Puesto que la Ec. (3.22) es lineal y homogénea (por construcción), si |ψ1 (t)i y |ψ2 (t)i son soluciones, también
lo será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i. Esto implica que si el estado inicial es de la forma |ψ (t0)i = λ1 |ψ1 (t0)i +
1
Visto de otro modo el potencial es un operador del tipo V (r, t) I, siendo I la identidad. Si V (r, t) es real, este operador es hermı́tico.
2
En una teorı́a clásica de campos, las coordenadas espaciales se convierten en parámetros y las coordenadas generalizadas son los
campos. Tenemos entonces cuatro parámetros: 3 posiciones y el tiempo, siendo la posiciones lugares geométricos en la “grilla” del
espacio euclidiano. Los cuatro parámetros son totalmente independientes unos de otros.
162 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
λ2 |ψ2 (t0)i entonces el estado en un tiempo t posterior será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i con lo cual tenemos
una correspondencia lineal entre |ψ (t0)i y |ψ (t)i. Por tanto, hay un operador lineal conocido como operador
evolución temporal que conecta a estas dos funciones
|ψ (t)i = U (t, t0) |ψ (t0)i (3.23)
analizaremos este operador más en detalle en la Sec. 7.1.
3.3.3. Conservación de la probabilidad
En virtud de la interpretación de |ψ (r, t)|2
como una densidad de probabilidad es necesario que
hψ (t)| ψ (t)i = kψk2
=
Z
|ψ (r, t)|2
d3
r = 1
para todo tiempo, i.e. en cualquier instante la partı́cula debe encontrarse en algún lugar del espacio (excepto
cuando hay procesos de creación y destrucción de partı́culas que no incluı́mos en el presente formalismo). Esto
significa que la norma de un ket |ψ (t)i debe ser constante en el tiempo. Es necesario por tanto que la ecuación
de Schrödinger mantenga invariante en el tiempo la norma de los vectores, con el fin de dar una interpretación
probabilı́stica coherente.
Para mirar la conservación de la probabilidad debemos evaluar la derivada total de la norma en el tiempo
d
dt
hψ (t)| ψ (t)i =

d
dt
hψ (t)|

|ψ (t)i + hψ (t)|

d
dt
|ψ (t)i

(3.24)
la derivada temporal del ket se obtiene directamente de la ecuación de Schrödinger Ec. (3.22)
d
dt
|ψ (t)i =
1
i~
H (t) |ψ (t)i (3.25)
para obtener la derivada temporal del bra, sacamos el hermı́tico conjugado de dicha ecuación
d
dt
hψ (t)| = −
1
i~
hψ (t)| H†
(t) = −
1
i~
hψ (t)| H (t) (3.26)
donde hemos usado la hermiticidad de H. Reemplazando (3.25) y (3.26) en (3.24) se obtiene
d
dt
hψ (t)| ψ (t)i =

−
1
i~
hψ (t)| H (t)

|ψ (t)i + hψ (t)|

1
i~
H (t) |ψ (t)i

= 0
esto implica entonces que si normalizamos el estado inicial, el estado en cualquier tiempo continuará normaliza-
do. Nótese la importancia de la hermiticidad de H para lograr la conservación de la norma y por tanto, de la
probabilidad.
3.3.4. La ecuación de continuidad para la probabilidad
Por simplicidad trabajaremos el caso de una sola partı́cula (sin espı́n). Asumiremos que la función de onda
ψ (r, t) está normalizada, en tal caso |ψ (r, t)|2
representa la densidad de probabilidad de que la partı́cula esté en
la posición r en el tiempo t
dP (r, t) = ρ (r, t) dV = |ψ (r, t)|2
dV (3.27)
tenemos que la probabilidad total nos da
PT ≡
Z
ρ (r, t) dV = 1
3.3. PROPIEDADES GENERALES DE LA ECUACIÓN DE SCHRÖDINGER 163
para todo tiempo, de modo que PT representa una “carga generalizada” que se conserva. Por supuesto esto no
significa que la distribución de esta “carga” (distribución de probabilidad), permanezca igual en el tiempo para
cada punto r, las variaciones de ρ (r, t) con el tiempo generan una propagación de la distribución de carga. En
general tanto las variaciones espaciales como temporales de ρ (r, t) generan una corriente de probabilidad, si ρ
no es función del tiempo se genera una corriente estacionaria. Recordemos que el volumen no es necesariamente
todo el espacio si existen regiones con probabilidad cero. Lo importante es que no cruce corriente de probabilidad
en la superficie que delimita al volumen de integración, ya que si esto ocurre, habrá probabilidad diferente de cero
en regiones que en tiempos anteriores eran inaccesibles. Esta situación es análoga al caso en que ρ (r, t) simbolizaba
una densidad de carga eléctrica a la cual le podemos asociar una densidad de corriente J (r, t).
Es bien conocido que la conservación global de la carga generalizada proviene de una ley de conservación local
que prohibe la creación espontánea de carga generalizada neta. Esto implica que si tomamos un volumen por cuya
superficie limitadora cruza corriente de carga generalizada, el flujo neto de carga por la superficie hacia afuera
(adentro) debe estar compensado por una disminución (aumento) en la carga interior al volumen, el enunciado
preciso de esta ley local de conservación es
∂
∂t
ρ (r, t) + ∇ · J (r, t) = 0 (3.28)
siendo ρ la densidad de carga generalizada y J la densidad de corriente generalizada, esta expresión es conocida
como ecuación de continuidad. Puesto que hemos encontrado la carga conservada (probabilidad total) y definido
ya la densidad de probabilidad, debemos encontrar una densidad de corriente de probabilidad que nos dé una
ecuación de la forma (3.28), en este caso estamos tratando a la probabilidad como un fluı́do o medio contı́nuo.
Volveremos a la ecuación de Schrödinger en representación de coordenadas dado por (3.10)
−
~2
2m
∇2
ψ (r, t) + V (r, t) ψ (r, t) = i~
∂ψ (r, t)
∂t
(3.29)
el potencial V (r, t) debe ser real para que H sea hermı́tico (lo cual es esencial para la conservación de la proba-
bilidad como ya vimos). La ecuación compleja conjugada de la Ec. de Schrödinger es
−
~2
2m
∇2
ψ∗
(r, t) + V (r, t) ψ∗
(r, t) = −i~
∂ψ∗ (r, t)
∂t
(3.30)
multiplicamos (3.29) por ψ∗ (r, t) y (3.30) por −ψ (r, t) y sumamos
−
~2
2m
ψ∗
(r, t) ∇2
ψ (r, t) + V (r, t) ψ∗
(r, t) ψ (r, t) = i~ψ∗
(r, t)
∂ψ (r, t)
∂t
~2
2m
ψ (r, t) ∇2
ψ∗
(r, t) − V (r, t) ψ (r, t) ψ∗
(r, t) = i~ψ (r, t)
∂ψ∗ (r, t)
∂t
quedando
−
~2
2m

ψ∗
∇2
ψ − ψ∇2
ψ∗

= i~

ψ∗ ∂ψ
∂t
+ ψ
∂ψ∗
∂t

−
~
2mi

ψ∗
∇2
ψ − ψ∇2
ψ∗

=
∂
∂t
[ψ∗
ψ]
sumando y restando un término a la izquierda
−
~
2mi

ψ∗
∇2
ψ + (∇ψ∗
) · (∇ψ) − (∇ψ∗
) · (∇ψ) − ψ∇2
ψ∗

=
∂
∂t
[ψ∗
ψ]
−
~
2mi
∇ · [ψ∗
∇ψ − ψ∇ψ∗
] =
∂ρ
∂t
164 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
quedando finalmente
∂ρ
∂t
+ ∇ ·

~
2mi
[ψ∗
∇ψ − ψ∇ψ∗
]

= 0 (3.31)
y comparando (3.31) con la ecuación (3.28) de continuidad se tiene que
J =
~
2mi
[ψ∗
∇ψ − ψ∇ψ∗
]
esta ecuación se puede reescribir definiendo
J =
~
m

1
2i
[Z − Z∗
]

; Z ≡ ψ∗
∇ψ
J =
1
m

1
2

~Z
i
+

~Z
i
∗
=
1
m
Re

~Z
i

de modo que
J (r, t) =
~
2mi
[ψ∗
∇ψ − ψ∇ψ∗
] =
1
m
Re

ψ∗

~
i
∇ψ

(3.32)
hemos probado entonces la conservación local de la probabilidad y encontramos la forma explı́cita de la densidad
de corriente, la cual es real como era de esperarse.
Vale la pena calcular la corriente de probabilidad para el caso especial de estados estacionarios de la forma
(3.15), en tal caso al reemplazar (3.15) en (3.32) resulta
J =
~
2mi
[ψ∗
∇ψ − ψ∇ψ∗
] =
~
2mi
n
ϕ (r) e−iωt
∗
∇

ϕ (r) e−iωt

−

ϕ (r) e−iωt

∇

ϕ (r) e−iωt
∗
o
J =
~
2mi

ϕ∗
(r) eiωt
e−iωt
∇ϕ (r) − ϕ (r) e−iωt
eiωt
∇ϕ∗
(r)
	
quedando finalmente
J (r) =
~
2mi
{ϕ∗
(r) ∇ϕ (r) − ϕ (r) ∇ϕ∗
(r)} =
1
m
Re

ϕ∗
(r)
~
i
∇ϕ (r)

estados estacionarios (3.33)
comparando, (3.32) con (3.33), vemos que para estados estacionarios, la corriente se puede calcular reemplazando
ψ (r, t) por ϕ (r), es decir omitiendo la componente temporal de ψ. Efectivamente, (3.33) corresponde a una
corriente estacionaria tal como se usa en mecánica clásica, i.e. una corriente que depende de la posición pero que
no depende explı́citamente del tiempo.
3.3.5. Expresión polar de la corriente de probabilidad
Consideremos una función de onda arbitraria ψ (r), utilizando su descomposición compleja polar tenemos
ψ (r) = α (r) eiξ(r)
; α (r) ≥ 0 , 0 ≤ ξ (r)  2π
si sustituı́mos esta expresión polar en la Ec. (3.32) para la densidad de corriente de probabilidad encontramos
que3
J (r) =
~
2mi
n
α (r) e−iξ(r)
∇
h
α (r) eiξ(r)
i
− α (r) eiξ(r)
∇
h
α (r) e−iξ(r)
io
=
~
2mi
n
α (r) e−iξ(r)
eiξ(r)
[∇α (r) + iα (r) ∇ξ (r)] − α (r) eiξ(r)
e−iξ(r)
[∇α (r) − iα (r) ∇ξ (r)]
o
J (r, t) =
~
m
α2
(r, t) ∇ξ (r, t) (3.34)
3
Por simplicidad hemos omitido la posible dependencia explı́cita del tiempo pero esto no altera los resultados.
3.4. APLICACIÓN DE LA ECUACIÓN DE SCHRÖDINGER A POTENCIALES DISCONTÍNUOS 165
y la densidad de probabilidad está dada por
ρ (r, t) = |ψ (r, t)|2
= α2
(r, t) (3.35)
vemos que ρ (r, t) solo depende del módulo del complejo ψ (r, t), en tanto que J (r, t) depende del módulo y del
gradiente de la fase. Por ejemplo, si la fase es constante en el espacio, J (r, t) es cero, aunque la densidad no lo
sea4. Las Ecs. (3.34, 3.35) nos dan a J (r, t) y ρ (r, t) cuando conocemos ψ (r, t), vale preguntarse si inversamente
podemos determinar unı́vocamente a ψ (r, t) con base en el conocimiento de J (r, t) y ρ (r, t). La Ec. (3.35) nos da
a ρ (r, t) en función del módulo de ψ (r, t). Por otro lado, dividiendo las Ecs. (3.34, 3.35) resulta
∇ξ (r, t) =
m
~
J (r, t)
ρ (r, t)
esta ecuación solo tiene solución si
∇ ×
J (r, t)
ρ (r, t)
= 0 (3.36)
que tiene un conjunto infinito de soluciones que solo diferen en una constante (o en una función solo del tiempo),
que corresponderı́a a una fase global irrelevante en ψ (r, t). Por tanto, si conocemos a ρ (r, t) y J (r, t) entonces
ψ (r, t) está bien especificada siempre y cuando se satisfaga la condición (3.36). Si dicha condición no se satisface,
no existe una función de onda asociada a ρ (r, t) y J (r, t) incluso si éstas cumplen con la ecuación de continuidad.
3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos
Hemos visto que los efectos cuánticos no son evidentes cuando se considera a h como muy pequeña. En
particular, si la longitud de onda λ = h/p asociada a la partı́cula es mucho menor que todas las demás longitudes
involucradas en el problema, la naturaleza ondulatoria de la materia quedará apantallada y el comportamiento
de la partı́cula será esencialmente clásico. Esto es análogo a lo que ocurre entre la óptica geométrica y la óptica
ondulatoria. Cuando la longitud de la onda es mucho menor que las demás longitudes involucradas en el problema,
la óptica geométrica nos predice muy bien los fenómenos ópticos, el comportamiento de los rayos es esencialmente
corpuscular. Cuando esto no se cumple, los aspectos ondulatorios de la luz se vuelven importantes para una
adecuada descripción de los fenómenos.
De la misma forma, cuando un potencial actúa sobre una partı́cula, los efectos cuánticos debidos a esta
interacción solo serán significativos si el potencial varı́a significativamente sobre una distancia menor a la longitud
de onda de DeBroglie asociada a la partı́cula. Es por esta razón que estudiaremos potenciales discontı́nuos en donde
la variación será finita para una distancia básicamente cero (es decir menor que cualquier longitud de onda). Es
claro que esto constituye una idealización ya que los potenciales fı́sicos deben ser contı́nuos si bien pueden exhibir
una enorme pendiente. Este lı́mite solo corresponderá aproximadamente a la realidad si la distancia δx en que
ocurre esta fuerte variación, es mucho menor que la longitud de onda de De Broglie asociada a la partı́cula y
mucho menor que cualquier otra longitud tı́pica del problema. Estos potenciales se podrán definir adecuadamente
a través de la función paso definida por
θ (x − x0) =

0 si x  x0
1 si x  x0
3.5. Potenciales rectangulares, análogo óptico
Definamos un potencial de la forma
4
Esto es una consecuencia más del carácter intrı́nsecamente complejo de la función de onda, pues la fase tiene un claro contenido
fı́sico.
166 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
V (x) =



V0 si −∞  x  x0
V1 si x0  x  x1
V2 si x1  x  ∞
; V1  V2  V0 (3.37)
la fuerza F (x) = −dV (x) /dx serı́a del tipo
F (x) = F0δ (x − x0) − F1δ (x − x1)
En primer lugar las predicciones de la mecánica clásica son inmediatas, por ejemplo si V (x) es una energı́a
potencial gravitacional, el perfil del potencial representa el perfil de la superficie sobre la cual se mueve la partı́cula,
los valores de x para los cuales E  V estarán prohibidos. En las regiones de potencial constante la velocidad
de la partı́cula es constante ya que es libre, solo en las discontinuidades experimenta una fuerza y si pasa a la
otra región (si E  V ) su energı́a cinética se verá aumentada (disminuı́da) si pasa a una zona de menor (mayor)
potencial.
Como el potencial no depende del tiempo podemos encontrar soluciones estacionarias para la ecuación de
Schrödinger. En la región de potencial constante V , la ecuación de Schrödinger independiente del tiempo nos da

−
~2
2m
d2
dx2
+ V

ϕ (x) = Eϕ (x)

d2
dx2
+
2m
~2
(E − V )

ϕ (x) = 0 (3.38)
escrita en esta forma la ecuación tiene un interesante análogo óptico. Consideremos un medio transparente de
ı́ndice de refracción n independiente de la posición y el tiempo. En tal medio puede haber ondas electromagnéticas
con campo eléctrico independiente de y y z
E (r, t) = uE (x) e−iΩt
(3.39)
siendo u un vector unitario perpendicular al eje x, teniendo en cuenta que E satisface la ecuación de onda y las
ecuaciones de Maxwell, resulta 
d2
dx2
+
n2Ω2
c2

E (x) = 0 (3.40)
las Ecs. (3.38) y (3.40) son idénticas si hacemos la asignación
2m
~2
(E − V ) =
n2Ω2
c2
(3.41)
adicionalmente, en los lugares en donde V (y por tanto n) son discontı́nuos las condiciones de frontera para ϕ (x)
y E (x) son las mismas: las soluciones y sus primeras derivadas deben permanecer contı́nuas (lo veremos más
adelante para las ϕ (x)). Esta analogı́a permite asociar al problema de una partı́cula en un potencial del tipo
(3.37) un problema óptico asociado a la propagación de una onda electromagnética de frecuencia angular Ω en un
medio cuyo ı́ndice de refracción n tiene discontinuidades del mismo tipo. En la Ec. (3.41) podemos despejar para
n (Ω) y obtener
n (Ω) =
1
~Ω
p
2mc2 (E − V ) (3.42)
nótese que para la onda electromagnética, la región con E  V corresponde a un medio transparente con ı́ndice
de refracción real y la onda es de la forma eikx. Por otro lado, cuando E  V corresponde a un medio con un
ı́ndice de refracción imaginario de modo que n2  0 y al reemplazar esto en (3.40) se obtiene una solución de la
forma e−ρx que es del tipo de onda evanescente.
Debe tenerse en cuenta que si bien obtendremos un comportamiento funcional análogo al óptico, la interpre-
tación probabilı́stica es muy diferente a la interpretación clásica para onda electromagnética.
3.5. POTENCIALES RECTANGULARES, ANÁLOGO ÓPTICO 167
3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto
Veamos ahora la estrategia especı́fica de solución para los estados estacionarios de la partı́cula sometidas a
potenciales discontı́nuos. En las regiones de energı́a potencial constante usamos la Ec. (3.38)

d2
dx2
+
2m
~2
(E − V )

ϕ (x) = 0 (3.43)
es útil distinguir tres casos
(a) E  V , introduzcamos por conveniencia una constante positiva k definida por
E − V ≡
~2k2
2m
(3.44)
al reemplazar en (3.43) queda 
d2
dx2
+ k2

ϕ (x) = 0 (3.45)
que es la ecuación de un oscilador armónico y la solución de la Ec. (3.45) se puede escribir como
ϕ (x) = Aeikx
+ A′
e−ikx
(3.46)
donde A y A′ son complejos constantes.
(b) E  V , esta condición corresponde a regiones del espacio que están clásicamente prohibidas. En este caso
introducimos la constante positiva ρ dada por
V − E ≡
~2ρ2
2m
(3.47)
y la Ec. (3.43) queda 
d2
dx2
− ρ2

ϕ (x) = 0 (3.48)
con solución
ϕ (x) = Beρx
+ B′
e−ρx
(3.49)
siendo B y B′ constantes complejas.
(c) E = V , en este caso
d2ϕ (x)
dx2
= 0 ⇒ ϕ (x) = Cx + C′
Ahora veamos el comportamiento de las soluciones en la discontinuidad. La primera tentación es pensar que
la función de onda debe ser discontı́nua en un punto donde el potencial lo sea, veremos sin embargo que tanto
ϕ (x) como dϕ (x) /dx deben ser contı́nuas y solo es la segunda derivada d2ϕ (x) /dx2 la que es discontı́nua en el
punto. Para ver esto, recordemos que un potencial con una discontinuidad de salto en x1 representa en fı́sica el
lı́mite cuando ε → 0 de un potencial Vε (x) que es igual a V (x) fuera del intervalo [x1 − ε, x1 + ε], pero que varı́a
de forma contı́nua en dicho intervalo. Consideremos la ecuación
d2
dx2
ϕε (x) +
2m
~2
[E − Vε (x)] ϕε (x) = 0 (3.50)
asumimos que Vε (x) está acotado en el intervalo [x1 − ε, x1 + ε], y que esta cota no depende del parámetro ε.
Esto se cumple en la mayorı́a de los casos, ya que usualmente Vε estará definido dentro de los valores [V0, V1] que
se tienen en la discontinuidad de salto a la izquierda y la derecha de x1. Escogemos una solución ϕε (x) que para
x  x1 − ε y para x  x1 + ε coincida con una solución dada de la Ec. (3.43). La idea es demostrar que cuando
ε → 0 entonces ϕε (x) tiende a una función ϕ (x) contı́nua y diferenciable a primer orden en x1. Es posible probar
168 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
a través de las propiedades de la ecuación diferencial (3.43) que ϕε (x) permanece acotada para cualquier valor
de ε con una cota independiente de ε, en la vecindad de x = x1. Esto fı́sicamente implica que la densidad de
probabilidad permanece finita. Integrando la Ec. (3.50) en el intervalo [x1 − η, x1 + η] resulta
Z x1+η
x1−η

d
dx

d
dx
ϕε (x)

dx +
2m
~2
Z x1+η
x1−η
[E − Vε (x)] ϕε (x) dx = 0
dϕε (x1 + η)
dx
−
dϕε (x1 − η)
dx
=
2m
~2
Z x1+η
x1−η
[Vε (x) − E] ϕε (x) dx (3.51)
y dado que Vε (x) y ϕε (x) permanecen acotados con cotas independientes de ε, la integral a la derecha de la Ec.
(3.51) tiende a cero cuando η tiende a cero. Por lo tanto
lı́m
η→0

dϕε (x1 + η)
dx
−
dϕε (x1 − η)
dx

= 0
por tanto, en este lı́mite, dϕ/dx es contı́nua en x = x1 y por tanto también ϕ (x) ya que derivabilidad implica
continuidad. Por otro lado, d2ϕ/dx2 es discontı́nua en x = x1 puesto que en la Ec. (3.43) vemos que
lı́m
η→0+

d2ϕ (x1 + η)
dx2
+
2m
~2
[E − V (x1 + η)] ϕ (x1 + η)

= 0
lı́m
η→0+

d2ϕ (x1 + η)
dx2

= lı́m
η→0+
2m
~2
{[V (x1 + η) − E] ϕ (x1 + η)}
lı́m
η→0+

d2ϕ (x1 + η)
dx2

=
2m
~2
{[V1 − E] ϕ (x1)}
siendo V1 el valor del potencial a la derecha de x1, similarmente
lı́m
η→0−

d2ϕ (x1 + η)
dx2

=
2m
~2
{[V0 − E] ϕ (x1)}
siendo V0 el valor del potencial a la izquierda de x1. Tenemos entonces que en x1 la segunda derivada presenta un
salto dado por
lı́m
η→0+

d2ϕ (x1 + η)
dx2

− lı́m
η→0−

d2ϕ (x1 + η)
dx2

=
2m
~2
(V1 − V0) ϕ (x1)
esto es una discontinuidad de salto para la segunda derivada ya que V1 6= V0. Nótese sin embargo, que la segunda
derivada permanece acotada. Es importante resaltar la importancia de que Vε (x) permanezca acotado. Por ejem-
plo, si V (x) = aδ (x) tenemos una función cuya integral permanece finita pero que no es acotada. En tal caso,
ϕ (x) permanece contı́nua pero no la primera derivada.
Por tanto, para encontrar la solución de los estados estacionarios cuando el potencial es contı́nuo a trozos
con discontinuidades de salto finito, calculamos primero las soluciones para las regiones en donde el potencial es
constante (con E  V ó E  V según el caso), y hacemos el “empalme” en los puntos donde hay discontinuidades
exigiendo la continuidad de la solución y de su primera derivada.
3.5.2. Expresión para la corriente en regiones de potencial constante
Por simplicidad consideraremos un problema unidimensional de una partı́cula colocada en un potencial cons-
tante V0. Aunque este caso corresponde a partı́cula libre, resulta interesante obtener la corriente en términos de
V0 ya que después consideraremos la posibilidad de regiones con potencial constante pero diferente en cada región.
Como la corriente (3.33) depende de la solución para la función de onda estacionaria debemos considerar varios
casos según la sección 3.5.1
3.5. POTENCIALES RECTANGULARES, ANÁLOGO ÓPTICO 169
(a) E  V0, en tal caso la solución estacionaria viene dada por la Ec. (3.46)
ϕ (x) = Aeikx
+ A′
e−ikx
(3.52)
donde hemos usado la definición (3.44)
E − V0 ≡
~2k2
2m
y sustituyendo (3.52) en la expresión (3.33) para la corriente
Jx =
~
2mi
[ϕ∗
∂xϕ − ϕ∂xϕ∗
]
Jx =
~
2mi
h
A∗
e−ikx
+ A′∗
eikx

∂x

Aeikx
+ A′
e−ikx

−

Aeikx
+ A′
e−ikx

∂x

A∗
e−ikx
+ A′∗
eikx
i
Jx =
~
2mi
h
A∗
e−ikx
+ A′∗
eikx
 
ikAeikx
− ikA′
e−ikx

−

Aeikx
+ A′
e−ikx
 
−ikA∗
e−ikx
+ ikA′∗
eikx
i
Jx =
~k
2m
h
A∗
e−ikx
+ A′∗
eikx

Aeikx
−

A∗
e−ikx
+ A′∗
eikx

A′
e−ikx
+

Aeikx
+ A′
e−ikx

A∗
e−ikx
−

Aeikx
+ A′
e−ikx

A′∗
eikx
i
Jx =
~k
2m
h
A∗
A + A′∗
Ae2ikx
− A∗
A′
e−2ikx
− A′∗
A′
+ AA∗
+ A′
A∗
e−2ikx
− AA′∗
e2ikx
− A′
A′∗
i
Jx =
~k
2m
h
2 |A|2
+ A′∗
Ae2ikx
− AA′∗
e2ikx
− A∗
A′
e−2ikx
+ A′
A∗
e−2ikx
− 2
A′
2
i
Jx =
~k
m
h
|A|2
−
A′
2
i
(3.53)
el signo relativo se puede entender teniendo en cuenta que la función de onda (3.52) representa dos ondas con
momentos opuestos p = ±~k con densidades de probabilidad |A|2
y |A′|2
, además ~k
m = p
m = vg nos dice que Jx es
de la forma ρvg como era de esperarse.
(b) Cuando E  V0 la solución está dada por las Ecs. (3.47, 3.49)
ϕ (x) = Beρx
+ B′
e−ρx
(3.54)
V0 − E ≡
~2ρ2
2m
(3.55)
sustituyendo (3.54) en (3.33) nos da
Jx =
~
2mi
[ϕ∗
∂xϕ − ϕ∂xϕ∗
]
Jx =
~
2mi

B∗
eρx
+ B′∗
e−ρx

∂x Beρx
+ B′
e−ρx

− Beρx
+ B′
e−ρx

∂x B∗
eρx
+ B′∗
e−ρx

Jx =
~
2mi

B∗
eρx
+ B′∗
e−ρx

ρBeρx
− ρB′
e−ρx

− Beρx
+ B′
e−ρx

ρB∗
eρx
− ρB′∗
e−ρx

Jx =
~ρ
2mi

B∗
eρx
+ B′∗
e−ρx

Beρx
− B∗
eρx
+ B′∗
e−ρx

B′
e−ρx
− Beρx
+ B′
e−ρx

B∗
eρx
+ Beρx
+ B′
e−ρx

B′∗
e−ρx

Jx =
~ρ
2mi

B∗
Be2ρx
+ B′∗
B − B∗
B′
− B′∗
B′
e−2ρx
− BB∗
e2ρx
− B′
B∗
+ BB′∗
+ B′
B′∗
e−2ρx

Jx =
~ρ
2mi

B∗
Be2ρx
− BB∗
e2ρx
+ 2B′∗
B − 2B∗
B′
− B′∗
B′
e−2ρx
+ B′
B′∗
e−2ρx

Jx =
~ρ
2mi

2B′∗
B − 2B∗
B′
170 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Jx =
~ρ
2mi

BB′∗
− B∗
B′

=
~ρ
m
Im

BB′∗

(3.56)
vemos que es necesario que en la función de onda (3.54) ambos coeficientes sean no nulos para que la corriente de
probabilidad sea diferente de cero.
3.6. El potencial escalón
Figura 3.1: Perfil de un potencial escalón con discontinuidad en x = 0 y altura V0.
Definamos un potencial en la forma
V (x) = V0θ (x) =

0 si x  0 (Región I)
V0 si x  0 (Región II)
cuyo perfil se ilustra en la Fig. 3.1. Asumiremos que la partı́cula viene desde x = −∞ en t = −∞ de modo que
inicialmente solo hay una onda viajera que se propaga hacia la derecha. Distinguiremos dos casos
3.6.1. E  V0, reflexión parcial
Como la energı́a es mayor que el potencial en ambas regiones, la Ec. (3.45) y la definición (3.44) son válidas
para las dos regiones I y II

d2
dx2
+ k2
1

ϕ (x) = 0 ; k1 ≡
r
2mE
~2
(región I) (3.57)

d2
dx2
+ k2
2

ϕ (x) = 0 ; k2 ≡
r
2m (E − V0)
~2
(región II) (3.58)
ası́ mismo las soluciones en las dos regiones son de la forma (3.46)
ϕI (x) = A1eik1x
+ A′
1e−ik1x
; ϕII (x) = A2eik2x
+ A′
2e−ik2x
(3.59)
dϕI (x)
dx
= ik1

A1eik1x
− A′
1e−ik1x

;
dϕII (x)
dx
= ik2

A2eik2x
− A′
2e−ik2x

(3.60)
y puesto que la ecuación (3.43) es homogénea, si ϕ es solución también lo será ϕ/A, siendo A una constante. Esto
implica que solo podemos determinar los cocientes entre las amplitudes pero no todas las amplitudes. Ahora bien,
3.6. EL POTENCIAL ESCALÓN 171
puesto que la amplitud de entrada es la de la onda incidente, es decir la de la onda que viaja hacia la derecha
en la región I, tenemos que A1 es el parámetro de entrada y todos los demás deben compararse con él. Por tanto
determinaremos los cocientes
A′
1
A1
,
A2
A1
,
A′
2
A1
.
Veamos la información que nos dan las condiciones de empalme, la continuidad de la función en x = 0 nos da
lı́m
x→0−
ϕ (x) = lı́m
x→0+
ϕ (x) ⇒ ϕI (x = 0) = ϕII (x = 0)
A1 + A′
1 = A2 + A′
2 (3.61)
y la continuidad de la primera derivada en x = 0 nos da
lı́m
x→0−
dϕ (x)
dx
= lı́m
x→0+
dϕ (x)
dx
⇒
dϕI (x = 0)
dx
=
dϕII (x = 0)
dx
k1 A1 − A′
1

= k2 A2 − A′
2

(3.62)
como solo tenemos dos ecuaciones (3.61) y (3.62) para los tres cocientes, debemos fijar una amplitud para poder
determinar los cocientes. Para ello tengamos en cuenta que cuando la función de onda penetra la región II vuelve
a ser una función de onda libre (potencial constante) y ya hemos visto que la función de onda libre es una onda
viajera en una sola dirección, de modo que no es de esperarse que surja una onda reflejada en el interior de la
región II (solo en el lı́mite entre I y II donde sı́ hay interacción). En consecuencia, no habrá onda reflejada en la
región II, por lo cual según la Ec. (3.59) vemos que
A′
2 = 0 (3.63)
nótese que esto está relacionado con el hecho de que hayamos tomado el caso de una partı́cula incidente que
proviene de x = −∞ (condiciones iniciales)5. Las Ecs. (3.61, 3.62) se simplifican a
A1 + A′
1 = A2 ; k1 A1 − A′
1

= k2A2 (3.64)
A1 + A′
1
A1
=
A2
A1
;
k1 (A1 − A′
1)
A1
= k2
A2
A1
1 +
A′
1
A1
=
A2
A1
;
k1
k2

1 −
A′
1
A1

=
A2
A1
(3.65)
igualando las dos Ecs. (3.65)
1 +
A′
1
A1
=
k1
k2

1 −
A′
1
A1

⇒ 1 −
k1
k2
= −

1 +
k1
k2

A′
1
A1
⇒
k2 − k1
k2
= −

k2 + k1
k2

A′
1
A1
A′
1
A1
=
k1 − k2
k1 + k2
y reemplazando en la primera de las Ecs. (3.65)
1 +
k1 − k2
k1 + k2
=
A2
A1
⇒
2k1
k1 + k2
=
A2
A1
tenemos entonces que las condiciones iniciales y de empalme nos llevan a
A′
2 = 0 ;
A′
1
A1
=
k1 − k2
k1 + k2
 0 ;
A2
A1
=
2k1
k1 + k2
 0 (3.66)
5
Si la partı́cula proviniera de x = +∞ y viajara hacia la izquierda, esperarı́amos onda incidente y reflejada en la región II y solo
onda transmitida en la región I.
172 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
donde el hecho de que el primer cociente es positivo proviene de las expresiones para k1 y k2 Ecs. (3.57, 3.58).
Ahora bien, para E  V0, la función ϕI (x) en la Ec. (3.59) representa dos ondas con momentos opuestos, es decir
propagándose en direcciones opuestas. La onda proporcional a A1 se propaga de izquierda a derecha de modo que
representa una partı́cula incidente (p = ~k1), la onda proporcional a A′
1 tiene momento p = −~k1 por lo cual
representa una partı́cula reflejada. Puesto que A′
2 = 0 tenemos que ϕII (x) en la Ec. (3.59) representa solo una
onda que corresponde a una partı́cula transmitida. Es natural entonces preguntarse por la probabilidad de que
una partı́cula que incide desde x = −∞ pase el escalón de potencial o rebote en él (que en términos cuánticos es la
probabilidad de detectar a la partı́cula en las regiones II y I respectivamente). A tales cantidades las llamaremos
coeficientes de transmisión T y de reflexión R respectivamente. Para calcular estas cantidades debemos calcular
primero la corriente asociada a cada región de potencial constante. Para el caso E  V0 esta corriente viene dada
por las Ecs. (3.52, 3.53), que aplicadas a las soluciones (3.59) y con la condición A′
2 = 0 Ec. (3.63) nos da
JI (x) =
~k1
m
h
|A1|2
−
A′
1
2
i
(3.67)
JII (x) =
~k2
m
|A2|2
(3.68)
JI es la superposición entre la corriente incidente y la corriente reflejada, en tanto que JII es la corriente trans-
mitida, por lo tanto
JI (x) = Jinc + Jrefl ; Jinc =
~k1
m
|A1|2
; Jrefl = −
~k1
m
A′
1
2
JII (x) = Jtr =
~k2
m
|A2|2
Ahora bien, la corriente incidente Jinc se divide en dos términos cuando incide sobre la discontinuidad: la corriente
reflejada y la transmitida
Jinc = Jtr + Jrefl
El coeficiente de reflexión del escalón es entonces el cociente entre la corriente reflejada sobre la corriente incidente
R =
Jrefl
Jinc
=
A′
1
A1
2
(3.69)
y el coeficiente de transmisión es el cociente entre la corriente transmitida sobre la corriente incidente
T =
Jtr
Jinc
=
k2
k1
A2
A1
2
(3.70)
podemos escribir R y T en términos de k1 y k2. Para hacerlo con R reemplazamos (3.66) en (3.69)
R =
A′
1
A1
2
=
k1 − k2
k1 + k2
2
=
(k1 − k2)2
(k1 + k2)2 =
(k1 + k2)2
− 4k1k2
(k1 + k2)2
R = 1 −
4k1k2
(k1 + k2)2
para el caso de T, reemplazamos (3.66) en (3.70)
T =
k2
k1

cuantica.pdf

  • 1.
    Mecánica Cuántica: Notasde Clase Rodolfo Alexander Diaz Sanchez Universidad Nacional de Colombia Departamento de Fı́sica Bogotá, Colombia 23 de agosto de 2015
  • 2.
    Índice general 1. Linearor vector spaces 14 1.1. Definition of a linear vector space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2. Algebraic properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Vector subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4. Dimension and bases in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.5. Mappings and transformations in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.6. Linear transformations of a vector space into itself . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.6.1. Projection operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.7. Normed vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.7.1. Convergent sequences, cauchy sequences and completeness . . . . . . . . . . . . . . . . . . . 23 1.7.2. The importance of completeness in quantum mechanics . . . . . . . . . . . . . . . . . . . . 24 1.7.3. The concept of continuity and its importance in Physics . . . . . . . . . . . . . . . . . . . . 24 1.8. Banach Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.8.1. Continuous linear transformations of a Banach space into scalars . . . . . . . . . . . . . . . 25 1.8.2. Continuous linear transformations of a Banach space into itself . . . . . . . . . . . . . . . . 25 1.9. Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.9.1. Orthonormal sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.9.2. The conjugate space H∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.9.3. The conjugate and the adjoint of an operator . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.10. Normal operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.11. Self-Adjoint operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.12. Unitary operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.13. Projections on Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.14. Theory of representations in finite-dimensional vector spaces . . . . . . . . . . . . . . . . . . . . . . 37 1.14.1. Representation of vectors and operators in a given basis . . . . . . . . . . . . . . . . . . . . 37 1.14.2. Change of coordinates of vectors under a change of basis . . . . . . . . . . . . . . . . . . . . 40 1.14.3. Change of the matrix representative of linear transformations under a change of basis . . . 41 1.15. Active and passive transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.16. Theory of representations on finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . 42 1.16.1. Linear operators in finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . 44 1.17. Determinants and traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 1.18. Rectangular matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 1.19. The eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 1.19.1. Matrix representative of the eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . 49 1.19.2. Eigenvectors and the canonical problem of matrices . . . . . . . . . . . . . . . . . . . . . . 50 1.20. Normal operators and the spectral theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces . . . 55 1.21. The concept of “hyperbasis” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2
  • 3.
    ÍNDICE GENERAL 3 1.22.Definition of an observable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 1.23. Complete sets of commuting observables (C.S.C.O.) . . . . . . . . . . . . . . . . . . . . . . . . . . 59 1.24. Some terminology concerning quantum mechanics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 1.25. The Hilbert Space L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 1.25.1. The wave function space ̥ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 1.26. Discrete orthonormal basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 1.26.1. Función delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 1.27. Closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 1.28. Introduction of hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 1.29. Closure relation with hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 1.30. Inner product and norm in terms of a hyperbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 1.31. Some specific continuous bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 1.31.1. Plane waves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 1.31.2. “Delta functions” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 1.32. Tensor products of vector spaces, definition and properties . . . . . . . . . . . . . . . . . . . . . . . 70 1.32.1. Scalar products in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 1.32.2. Tensor product of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 1.32.3. The eigenvalue problem in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . 72 1.32.4. Complete sets of commuting observables in tensor product spaces . . . . . . . . . . . . . . . 74 1.33. Restrictions of an operator to a subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 1.34. Functions of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 1.34.1. Some commutators involving functions of operators . . . . . . . . . . . . . . . . . . . . . . . 76 1.35. Differentiation of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 1.35.1. Some useful formulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 1.36. State space and Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 1.37. Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 1.37.1. Elements of the dual or conjugate space E∗ r . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 1.37.2. The correspondence between bras and kets with hyperbases . . . . . . . . . . . . . . . . . . 81 1.38. The action of linear operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 1.38.1. Projectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 1.39. Hermitian conjugation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 1.39.1. The adjoint operator A† in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 1.39.2. Mathematical objects and hermitian conjugation in Dirac notation . . . . . . . . . . . . . . 86 1.40. Theory of representations of E in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 1.40.1. Orthonormalization and closure relation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 1.40.2. Representation of operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . 91 1.41. Change of representations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 1.41.1. Transformation of the coordinates of a ket . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 1.41.2. Transformation of the coordinates of a bra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 1.41.3. Transformation of the matrix elements of an operator . . . . . . . . . . . . . . . . . . . . . 95 1.42. Representation of the eigenvalue problem in Dirac notation . . . . . . . . . . . . . . . . . . . . . . 95 1.42.1. C.S.C.O. in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 1.43. The continuous bases |ri and |pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 1.43.1. Orthonormalization and closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 1.43.2. Coordinates of kets and bras in {|ri} and {|pi} . . . . . . . . . . . . . . . . . . . . . . . . . 97 1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa . . . . . . . . 98 1.43.4. The R and P operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 1.43.5. The eigenvalue problem for R and P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 1.43.6. Some properties of Fourier transforms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
  • 4.
    4 ÍNDICE GENERAL 1.44.General properties of two conjugate observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 1.44.1. The eigenvalue problem of Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 1.44.2. The action of Q, P and S (λ) in the {|qi} basis . . . . . . . . . . . . . . . . . . . . . . . . . 105 1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q . . . . . . . . . . . . 106 1.45. Diagonalization of a 2 × 2 hermitian matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 1.45.1. Formulation of the problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 1.45.2. Eigenvalues and eigenvectors of K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 1.45.3. Eigenvalues and eigenvectors of H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2. Construcción fenomenológica de los postulados 111 2.1. La radiación del cuerpo negro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 2.2. El efecto fotoeléctrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 2.3. El efecto compton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 2.4. Espectroscopı́a, estabilidad del átomo y teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . 115 2.4.1. La teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 2.4.2. Predicciones de la teorı́a de Bohr para átomos con un electrón . . . . . . . . . . . . . . . . 117 2.5. Las reglas de cuantización de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 2.5.1. El átomo de Bohr bajo las reglas de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . 119 2.5.2. Cuantización de Planck con las reglas de Wilson y Sommerfeld . . . . . . . . . . . . . . . . 120 2.5.3. La teorı́a relativista de Sommerfeld y la estructura fina del átomo de Hidrógeno . . . . . . . 121 2.6. Los postulados de De Broglie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 2.6.1. Propiedades de las ondas piloto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 2.6.2. Corroboración experimental de los postulados de De Broglie . . . . . . . . . . . . . . . . . . 125 2.6.3. Las reglas de cuantización de Bohr a la luz de los postulados de De Broglie . . . . . . . . . 125 2.7. Sı́ntesis de los resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 2.8. El experimento de Young de la doble rendija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 2.8.1. Interpretación mecano-cuántica de la dualidad onda partı́cula . . . . . . . . . . . . . . . . . 131 2.9. Medición y preparación de un sistema: Descomposición espectral . . . . . . . . . . . . . . . . . . . 132 2.10. Dualidad onda partı́cula para la materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 2.11. Aspectos ondulatorios de una partı́cula material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 2.11.1. Estados cuánticos arbitrarios como superposición de ondas planas . . . . . . . . . . . . . . 138 2.11.2. Perfil instantáneo del paquete de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 2.11.3. El principio de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 2.12. El principio de complementariedad para la dualidad onda partı́cula y su relación con el principio de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 2.13. Evolución temporal de paquetes de ondas libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 2.14. Caracterización de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 2.14.1. Integrales básicas para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 2.14.2. Perfiles de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 2.14.3. Relaciones de incertidumbre para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . 151 2.15. Evolución temporal de paquetes de onda gaussianos (opcional) . . . . . . . . . . . . . . . . . . . . 151 2.15.1. Dispersión del paquete de onda gaussiano (opcional) . . . . . . . . . . . . . . . . . . . . . . 152 3. Ecuación de Schrödinger y sus propiedades 155 3.1. Plausibilidad de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 3.2. Ecuación de Schrödinger con potencial escalar independiente del tiempo . . . . . . . . . . . . . . . 158 3.3. Propiedades generales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3.3.1. Determinismo en las soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 3.3.2. Principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
  • 5.
    ÍNDICE GENERAL 5 3.3.3.Conservación de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 3.3.4. La ecuación de continuidad para la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 162 3.3.5. Expresión polar de la corriente de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 164 3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos . . . . . . . . . . . . . . . . . 165 3.5. Potenciales rectangulares, análogo óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto . . . . . . . 167 3.5.2. Expresión para la corriente en regiones de potencial constante . . . . . . . . . . . . . . . . . 168 3.6. El potencial escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 3.6.1. E > V0, reflexión parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 3.6.2. E < V0; reflexión total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 3.7. Barrera de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 3.7.1. E > V0, resonancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 3.7.2. Caso E < V0: Efecto túnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 3.8. Pozo de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 3.8.1. Partı́cula con energı́a −V0 < E < 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 3.8.2. Partı́cula con energı́a E > 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 4. Enunciado matemático de los postulados 192 4.1. Los fenómenos clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 4.2. Los fenómenos cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 4.3. Establecimiento de los postulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 4.3.1. Descripción de los estados y las cantidades fı́sicas . . . . . . . . . . . . . . . . . . . . . . . . 195 4.3.2. El proceso de medición y la distribución de probabilidad . . . . . . . . . . . . . . . . . . . . 196 4.3.3. Relevancia fı́sica de las fases en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . 199 4.3.4. El proceso de medida y la reducción del paquete de onda . . . . . . . . . . . . . . . . . . . 200 4.3.5. Evolución fı́sica de los sistemas cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 4.3.6. Reglas de cuantización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5. Consecuencias fenomenológicas de los postulados 205 5.1. Consideraciones estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.1.1. Valor medio de un observable para un sistema en un estado dado . . . . . . . . . . . . . . . 206 5.1.2. Valor esperado para los observables X, P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 5.1.3. Valor esperado para el commutador de dos observables . . . . . . . . . . . . . . . . . . . . . 209 5.1.4. La desviación media cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.2. Observables compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 5.3. Observables no compatibles e incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 5.4. Desviación media cuadrática y principio de incertidumbre . . . . . . . . . . . . . . . . . . . . . . . 215 5.4.1. Paquetes de mı́nima incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 5.5. Preparación de un estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 5.6. Propiedades adicionales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . 220 5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional) . . . . . . . . . . . 220 5.7. Evolución temporal del valor esperado de un observable . . . . . . . . . . . . . . . . . . . . . . . . 221 5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest . . . . . . . . 222 5.8. Ecuación de Schrödinger para sistemas conservativos . . . . . . . . . . . . . . . . . . . . . . . . . . 225 5.8.1. Estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 5.8.2. Constantes de movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 5.8.3. Frecuencias de Bohr de un sistema y reglas de selección . . . . . . . . . . . . . . . . . . . . 228 5.8.4. Relación de incertidumbre entre tiempo y energı́a para sistemas conservativos . . . . . . . . 229 5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional . . . . . . . . . 231
  • 6.
    6 ÍNDICE GENERAL 5.9.Consecuencias fı́sicas del principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica . . . . . . . . . . . . . . . . . . . . 232 5.9.2. Efectos de interferencia en fotones polarizados . . . . . . . . . . . . . . . . . . . . . . . . . 234 5.9.3. Suma sobre los estados intermedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 5.10. Principio de superposición con varios estados asociados a una medida . . . . . . . . . . . . . . . . 237 5.10.1. El principio de superposición para valores propios degenerados . . . . . . . . . . . . . . . . 237 5.10.2. Aparatos insuficientemente selectivos en la medida . . . . . . . . . . . . . . . . . . . . . . . 238 5.11. Discusión general sobre el fenómeno de interferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 240 5.12. Medición insuficiente de espectros contı́nuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 5.13. Reducción del paquete de onda para espectro continuo . . . . . . . . . . . . . . . . . . . . . . . . . 242 6. Aplicación de los postulados con información parcial 244 6.1. Aplicación de los postulados al medir sobre un subsistema . . . . . . . . . . . . . . . . . . . . . . . 244 6.1.1. Interpretación fı́sica de los estados que son productos tensoriales . . . . . . . . . . . . . . . 245 6.1.2. Significado fı́sico de estados que no son productos tensoriales . . . . . . . . . . . . . . . . . 247 6.2. Operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 6.2.1. El concepto de mezcla estadı́stica de estados . . . . . . . . . . . . . . . . . . . . . . . . . . 248 6.2.2. Estados puros y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 6.2.3. Mezcla estadı́stica de estados: estados no puros . . . . . . . . . . . . . . . . . . . . . . . . . 251 6.2.4. Propiedades generales del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . 252 6.2.5. Populaciones y coherencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 6.3. Aplicaciones del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 6.3.1. Sistema en equilibrio termodinámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto de traza parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 6.3.3. Traza parcial y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 7. Formulaciones alternativas de la mecánica cuántica 260 7.1. Operador evolución temporal: definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . 260 7.1.1. Operador evolución temporal para sistemas conservativos . . . . . . . . . . . . . . . . . . . 262 7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional) . . . . . . . . . . 262 7.2. Bras, kets y observables equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.2.1. La transformada de un operador y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . 264 7.3. La imagen de Schrödinger y la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . 265 7.3.1. Algunos sistemas simples en la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . 266 7.4. La imagen de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 8. El oscilador armónico cuántico 270 8.1. Propiedades generales del oscilador armónico cuántico unidimensional . . . . . . . . . . . . . . . . 270 8.2. El problema de valores propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 8.3. Determinación del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 8.3.1. Interpretación de los operadores a, a† y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 8.3.2. Estudio de la degeneración del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 8.4. Estados propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 8.4.1. Construcción de los kets propios con base en el ket del estado base . . . . . . . . . . . . . . 277 8.4.2. Ortonormalidad de los kets propios (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . 278 8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano . . 280 8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi} . . . . . . . . . . . . . . . 281 8.6. Valores esperados y dispersión en un estado estacionario del oscilador . . . . . . . . . . . . . . . . 283
  • 7.
    ÍNDICE GENERAL 7 8.7.Propiedades del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 8.8. Evolución temporal de los observables del oscilador armónico . . . . . . . . . . . . . . . . . . . . . 287 8.9. Oscilador armónico cargado en un campo eléctrico uniforme (Opcional) . . . . . . . . . . . . . . . 289 8.9.1. Solución utilizando el operador traslación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 9. Estados cuasi-clásicos del oscilador armónico 293 9.1. Parametrización del oscilador clásico con parámetros cuánticos . . . . . . . . . . . . . . . . . . . . 293 9.2. Construcción de los estados coherentes o cuasi-clásicos . . . . . . . . . . . . . . . . . . . . . . . . . 294 9.3. Propiedades de los estados |αi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 9.3.1. Valores permitidos de la energı́a para un estado coherente |αi . . . . . . . . . . . . . . . . . 298 9.3.2. Cálculo de los observables X, P en el estado |αi . . . . . . . . . . . . . . . . . . . . . . . . . 300 9.4. Generador y función de onda de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . 300 9.5. Los estados coherentes son completos pero no ortogonales . . . . . . . . . . . . . . . . . . . . . . . 303 9.6. Evolución temporal de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico . . . . . . . . . . . . . . . . . 307 10.Teorı́a general del momento angular en mecánica cuántica 308 10.1. Definición de momento angular por sus propiedades de conmutación . . . . . . . . . . . . . . . . . 309 10.1.1. Cuantización del momento angular orbital . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 10.1.2. Definición de momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 10.2. Propiedades algebráicas del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 10.2.1. Álgebra de los operadores J2, J3, J+, J− . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 10.3. Estructura de valores y vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 10.3.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 10.3.2. Caracterı́sticas generales de los valores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . 312 10.3.3. Determinación de los valores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . 314 10.4. Propiedades de los vectores propios de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 10.4.1. Generación de autoestados por medio de los operadores J+ y J− . . . . . . . . . . . . . . . 317 10.5. Construcción de una base estándar con base en un C.S.C.O . . . . . . . . . . . . . . . . . . . . . . 319 10.5.1. Descomposición de E en subespacios del tipo E (j, k) . . . . . . . . . . . . . . . . . . . . . . 320 10.6. Representaciones matriciales de los operadores momento angular . . . . . . . . . . . . . . . . . . . 321 10.6.1. Representaciones matriciales del tipo (Ji)(j) en la base estándar para j arbitrario . . . . . . 322 10.6.2. Representaciones matriciales en la base estándar para j = 0 . . . . . . . . . . . . . . . . . . 323 10.6.3. Representaciones matriciales en la base estándar para j = 1/2 . . . . . . . . . . . . . . . . . 323 10.6.4. Representaciones matriciales en la base estándar para j = 1 . . . . . . . . . . . . . . . . . . 325 11.Propiedades de los momentos angulares orbitales 326 11.1. Momentos angulares orbitales como operadores diferenciales . . . . . . . . . . . . . . . . . . . . . . 329 11.2. Valores permitidos de l y m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 11.3. Propiedades fundamentales de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . 331 11.3.1. Ortonormalidad y completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332 11.3.2. Propiedades de paridad y conjugación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332 11.3.3. Armónicos esféricos de la forma Yl,0 (θ) y polinomios de Legendre . . . . . . . . . . . . . . . 333 11.3.4. Teorema de adición de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . 333 11.4. Bases estándar de una función de onda sin espı́n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 11.5. Valores esperados y dispersión para sistemas en un estado |l, m, ki . . . . . . . . . . . . . . . . . . 335 11.6. Probabilidades asociadas a la medida de L2 y L3 en un estado arbitrario . . . . . . . . . . . . . . . 337 11.7. Ejemplos de cálculos de probabilidad para L2 y L3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 11.7.1. Función de onda parcialmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
  • 8.
    8 ÍNDICE GENERAL 11.7.2.Función de onda totalmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 11.7.3. Comportamiento de la probabilidad con θ y ϕ . . . . . . . . . . . . . . . . . . . . . . . . . . 341 12.Interacciones centrales en mecánica cuántica 343 12.1. El problema de dos cuerpos en Mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 12.2. Reducción del problema de dos cuerpos en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . 346 12.2.1. Autovalores y autofunciones del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . 347 12.3. El problema clásico de una partı́cula sometida a una fuerza central . . . . . . . . . . . . . . . . . . 348 12.4. Hamiltoniano cuántico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 12.5. Solución general del problema de valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 12.5.1. La ecuación radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 12.5.2. Comportamiento de la solución radial en el origen . . . . . . . . . . . . . . . . . . . . . . . 352 12.6. Estados estacionarios de una partı́cula en un potencial central . . . . . . . . . . . . . . . . . . . . . 353 12.6.1. Degeneración de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 13.Átomos hidrogenoides 356 13.1. El átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 13.2. Problema de valores propios del átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . 357 13.3. Solución de la ecuación radial por series de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . 359 13.3.1. Serie de potencias radial y relaciones de recurrencia . . . . . . . . . . . . . . . . . . . . . . 359 13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie . . . . . . . . . . . . . . . . . . . . . 361 13.3.3. Coeficientes del polinomio radial en términos de c0 . . . . . . . . . . . . . . . . . . . . . . . 362 13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1 . . . . . . . . . . . . . . . . . . . . . 363 13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2 . . . . . . . . . . . . . . . . . . . . . 364 13.3.6. Cálculo de c0 y de la función radial para l = k = 1 . . . . . . . . . . . . . . . . . . . . . . . 365 13.3.7. Estructura de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 13.4. Parámetros atómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 13.5. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 13.6. Discusión de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 13.6.1. Dependencia angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 14.Corrientes de probabilidad y acoples magnéticos en átomos 372 14.1. Corrientes de probabilidad para el átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . 372 14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético . . . . . . . . . . 373 14.2. Átomo de hidrógeno en un campo magnético uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 375 14.2.1. Hamiltoniano del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 14.2.2. Estimación numérica de las contribuciones H0, H1 y H2 . . . . . . . . . . . . . . . . . . . . 377 14.2.3. Término diamagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 14.2.4. Término paramagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 14.3. Efecto Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética . . . . . . . . . . . . . 380 14.3.2. Oscilaciones dipolares eléctricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 14.3.3. Frecuencia y polarización de la radiación emitida . . . . . . . . . . . . . . . . . . . . . . . . 382 15.Momento angular intrı́nseco 384 15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un campo magnético . . . . . . . . 384 15.2. Experimento de Stern-Gerlach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 15.3. Resultados del experimento y el momento angular intrı́nseco . . . . . . . . . . . . . . . . . . . . . . 386 15.4. Evidencia experimental del momento angular intrı́nseco del electrón . . . . . . . . . . . . . . . . . 388 15.4.1. Estructura fina de las lı́neas espectrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
  • 9.
    ÍNDICE GENERAL 9 15.4.2.Efecto Zeeman anómalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 15.5. Momento angular intrı́nseco en la cuántica no-relativista . . . . . . . . . . . . . . . . . . . . . . . . 389 15.6. Propiedades de un momento angular 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 15.6.1. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 15.6.2. Representación matricial de los observables de espı́n . . . . . . . . . . . . . . . . . . . . . . 394 15.7. Descripción no-relativista de partı́culas con espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . 395 15.7.1. Construcción de los estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 15.7.2. Construcción de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 15.8. Representación en la base |p, εi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 15.9. Cálculos de probabilidad para estados de espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 16.Adición de momentos angulares 404 16.1. El problema clásico de la adición del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . 404 16.2. Momento angular total en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 16.2.1. Dos partı́culas sin espı́n bajo una interacción central . . . . . . . . . . . . . . . . . . . . . . 404 16.2.2. Una partı́cula con espı́n bajo una interacción central . . . . . . . . . . . . . . . . . . . . . . 406 16.2.3. Análisis general de dos momentos angulares asociados a una fuerza central . . . . . . . . . 407 16.3. La adición de dos momentos angulares es otro momento angular . . . . . . . . . . . . . . . . . . . 408 16.4. Adición de dos momentos angulares con j(1) = j(2) = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . 409 16.4.1. Autovalores de J3 y su degeneración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410 16.4.2. Diagonalización de J2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411 16.4.3. Autoestados de J2 y J3: singlete y triplete . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 16.5. Método general de adición de dos momentos angulares arbitrarios . . . . . . . . . . . . . . . . . . . 413 16.5.1. Formación del sistema a partir de dos subsistemas . . . . . . . . . . . . . . . . . . . . . . . 414 16.5.2. Momento angular total y sus relaciones de conmutación . . . . . . . . . . . . . . . . . . . . 415 16.5.3. Cambio de base a realizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2. . . . . . . . . . . . . . . . . . . 416 16.5.5. Autovalores de J3 y su degeneración: Caso general . . . . . . . . . . . . . . . . . . . . . . . 417 16.5.6. Autovalores de J2 : caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 16.6. Autovectores comunes de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 16.6.1. Caso especial j1 = j2 = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 16.7. Autovectores de J2 y J3 : Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423 16.7.1. Determinación de los vectores |JMi del subespacio E (j1 + j2) . . . . . . . . . . . . . . . . . 423 16.7.2. Determinación de los vectores |JMi en los otros subespacios . . . . . . . . . . . . . . . . . 424 16.8. Transformación de la base desacoplada a la base acoplada . . . . . . . . . . . . . . . . . . . . . . . 425 17.Propiedades generales de los sistemas de dos estados 428 17.1. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 17.2. Efecto del acople sobre la energı́a y los estados estacionarios . . . . . . . . . . . . . . . . . . . . . . 429 17.2.1. Efecto del acople sobre los estados estacionarios del sistema . . . . . . . . . . . . . . . . . . 429 17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios . . . . . . . . 431 17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios . . . . . . . . 432 17.3. Evolución del vector de estado: oscilación entre dos estados . . . . . . . . . . . . . . . . . . . . . . 432 18.Teorı́a cuántica de la dispersión 436 18.1. Teorı́a clásica de la dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 18.2. Diferentes tipos de colisiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 18.3. Ejemplos de dispersión en mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 18.3.1. Dispersión elástica por esfera rı́gida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
  • 10.
    10 ÍNDICE GENERAL 18.3.2.Dispersión de Rutherford . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 18.4. Teorı́a cuántica de la dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 18.5. Estados estacionarios de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 18.5.1. Condiciones fı́sicas sobre el paquete de ondas . . . . . . . . . . . . . . . . . . . . . . . . . . 445 18.6. Cálculo de la sección eficaz usando corrientes de probabilidad . . . . . . . . . . . . . . . . . . . . . 448 18.7. Ecuación integral de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 18.7.1. Ecuación integral y función de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 18.7.2. Determinación de la función de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 18.7.3. Solución de la ecuación integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 18.8. Aproximación de Born . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 18.8.1. Rango de validez de la aproximación de Born . . . . . . . . . . . . . . . . . . . . . . . . . . 457 18.8.2. Aproximación de Born para el potencial de Yukawa . . . . . . . . . . . . . . . . . . . . . . 458 19.Teorı́a cuántica de la dispersión II: Ondas parciales 461 19.1. Estados estacionarios de partı́cula libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 19.2. Estados estacionarios de partı́cula libre con momento bien definido: Ondas planas . . . . . . . . . . 462 19.3. Estados estacionarios de partı́cula libre con momento angular bien definido: Ondas esféricas libres. 463 19.4. Caracterización de las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 19.4.1. Álgebra de generadores de ondas esféricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 19.4.2. Relaciones de recurrencia para las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . 465 19.4.3. Solución de la ecuación radial para l = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466 19.4.4. Generación de ondas esféricas libres con l 6= 0, a través de P+ y L± . . . . . . . . . . . . . . 468 19.4.5. Ondas esféricas libres normalizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 19.4.6. Ortonormalidad de las funciones esféricas libres . . . . . . . . . . . . . . . . . . . . . . . . . 471 19.4.7. Comportamiento asintótico de las ondas esféricas libres . . . . . . . . . . . . . . . . . . . . 474 19.4.8. Relación entre las ondas esféricas libres y las planas . . . . . . . . . . . . . . . . . . . . . . 476 19.4.9. Interpretación fı́sica de las ondas esférica libres . . . . . . . . . . . . . . . . . . . . . . . . . 479 19.5. Ondas parciales en el potencial V (r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 19.5.1. Ondas parciales en potenciales de rango finito . . . . . . . . . . . . . . . . . . . . . . . . . . 483 19.5.2. Sección eficaz en términos de los corrimientos de fase δl . . . . . . . . . . . . . . . . . . . . 484 19.5.3. Dispersión por esfera rı́gida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 19.6. Colisiones con absorción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 19.6.1. Sección eficaz en procesos absortivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 19.6.2. Teorema óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 20.Teorı́a estacionaria de perturbaciones 495 20.1. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 20.2. Solución aproximada para los valores propios de H (λ) . . . . . . . . . . . . . . . . . . . . . . . . . 497 20.3. Perturbación de un nivel no degenerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500 20.3.1. Corrección de primer orden para la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 20.3.2. Corrección de primer orden para el autovector . . . . . . . . . . . . . . . . . . . . . . . . . 501 20.3.3. Corrección de segundo orden para la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . 502 20.3.4. Corrección de segundo orden para el estado . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 20.3.5. Cota superior para ε2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 20.4. Perturbación de un nivel degenerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 20.4.1. Comportamiento de subniveles degenerados a más alto orden en perturbaciones . . . . . . . 505 20.5. Consideraciones generales sobre teorı́a estacionaria de perturbaciones . . . . . . . . . . . . . . . . . 506 20.6. Perturbaciones estacionarias sobre el oscilador armónico . . . . . . . . . . . . . . . . . . . . . . . . 507 20.6.1. Orden de magnitud de los observables no perturbados . . . . . . . . . . . . . . . . . . . . . 507
  • 11.
    ÍNDICE GENERAL 11 20.6.2.Parametrización de la perturbación al oscilador con potencial lineal adicional . . . . . . . . 508 20.6.3. Perturbación al oscilador armónico con potencial cuadrático . . . . . . . . . . . . . . . . . . 510 20.6.4. Perturbación del oscilador armónico por un potencial cúbico . . . . . . . . . . . . . . . . . 511 21.Método variacional 515 21.1. Descripción del método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 21.2. Implementación del método variacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 21.3. Funciones de prueba restringidas a un subespacio de E . . . . . . . . . . . . . . . . . . . . . . . . . 518 21.4. Espectro del oscilador armónico por métodos variacionales . . . . . . . . . . . . . . . . . . . . . . . 519 21.4.1. Estimación del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 21.4.2. Estimación del primer estado excitado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 520 21.5. Espectro del oscilador armónico con otras funciones de prueba . . . . . . . . . . . . . . . . . . . . 521 22.Teorı́a de perturbaciones dependiente del tiempo 522 22.1. Solución perturbativa de la ecuación de Schrödinger dependiente del tiempo . . . . . . . . . . . . . 523 22.1.1. Estado del sistema a primer orden en λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 22.1.2. Probabilidad de transición a segundo orden en λ . . . . . . . . . . . . . . . . . . . . . . . . 526 22.2. Perturbaciones sinusoidales y constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 22.3. Perturbación senoidal entre dos estados discretos: resonancias . . . . . . . . . . . . . . . . . . . . . 528 22.3.1. Ancho de resonancia e incertidumbre energı́a tiempo . . . . . . . . . . . . . . . . . . . . . . 529 22.3.2. Condiciones para la validez del método perturbativo . . . . . . . . . . . . . . . . . . . . . . 530 22.4. Acoplamientos con estados del espectro contı́nuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 22.4.1. El caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 22.4.2. Regla de oro de Fermi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 22.4.3. Probabilidad de transición hacia el contı́nuo para perturbación senoidal . . . . . . . . . . . 536 22.4.4. Dispersión y regla de oro de Fermi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 23.Estructura fina e hiperfina del átomo de Hidrógeno 538 23.1. El Hamiltoniano de estructura fina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538 23.1.1. Orden de Magnitud de H0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 23.1.2. Término de corrección cinética Wmv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 23.1.3. Acoplamiento espı́n-órbita WSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 23.1.4. Término de Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 23.2. Estructura hiperfina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 23.2.1. Interpretación de los términos en la estructura hiperfina . . . . . . . . . . . . . . . . . . . . 543 23.3. Estructura fina del nivel n = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 23.4. Representación matricial de la estructura fina para el nivel n = 2 . . . . . . . . . . . . . . . . . . . 545 23.5. Cálculo de los términos cinético y de Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 23.5.1. Cálculo de h1/Ri , 1/R2 y 1/R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 23.5.2. Cálculo de hWmvi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 23.5.3. El valor medio hWDi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 23.6. Cálculo del término de espı́n-órbita WSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 23.6.1. Cálculo del término espı́n-angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 23.6.2. Cálculo del término radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 23.6.3. Contribución espı́n-órbita completa para la subcapa 2p . . . . . . . . . . . . . . . . . . . . . 553 23.7. Sı́ntesis de resultados sobre la estructura fina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 23.8. La estructura fina para n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 23.9. Estructura hiperfina para n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 23.9.1. Cálculo del factor orbital R para Whf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
  • 12.
    12 ÍNDICE GENERAL 23.9.2.Cálculo del factor de espı́n para Whf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558 23.9.3. Espectro hiperfino del nivel 1s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 24.Campos externos sobre el átomo de Hidrógeno 561 24.1. Efecto Zeeman de la estructura hiperfina del estado base 1s . . . . . . . . . . . . . . . . . . . . . . 561 24.1.1. Efecto Zeeman de campo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562 24.1.2. El efecto Zeeman para campo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566 24.1.3. El efecto Zeeman para campo intermedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 24.2. Efecto Stark para el átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572 24.2.1. El efecto Stark sobre el nivel n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572 24.2.2. Efecto Stark sobre el nivel n = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574 25.Moléculas diatómicas 576 25.1. Estados de momento angular cero (l = 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 25.2. Estados de momento angular no nulo (l 6= 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 25.3. Espectro de moléculas diatómicas heteropolares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581 25.3.1. Espectro puramente rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582 25.3.2. Espectro vibracional-rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583 25.4. Correcciones a la estructura espectral (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584 25.4.1. Corrección a las funciones de onda y los niveles de energı́a . . . . . . . . . . . . . . . . . . . 587 25.4.2. Distorsión centrı́fuga de la molécula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587 25.4.3. Acople vibracional-rotacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587 25.5. Espectro de moléculas diatómicas homopolares: efecto Raman . . . . . . . . . . . . . . . . . . . . . 589 26.Sistemas cuánticos de partı́culas idénticas 590 26.1. Partı́culas idénticas en mecánica clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590 26.2. Partı́culas idénticas en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591 26.3. Degeneración de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592 26.3.1. Degeneración de intercambio para un sistema de dos partı́culas de espı́n 1/2 . . . . . . . . . 593 26.3.2. Degeneración de intercambio para un sistema arbitrario . . . . . . . . . . . . . . . . . . . . 594 26.4. Operadores de permutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 26.4.1. Permutaciones en sistemas de dos partı́culas . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 26.4.2. Simetrizadores y antisimetrizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596 26.4.3. Transformación de los observables por medio de las permutaciones . . . . . . . . . . . . . . 597 26.4.4. Permutación de un conjunto arbitrario de partı́culas . . . . . . . . . . . . . . . . . . . . . . 598 26.5. Postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 26.5.1. Aplicación del postulado a partı́culas compuestas . . . . . . . . . . . . . . . . . . . . . . . . 602 26.5.2. Solución de la degeneración de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . 602 26.6. Aplicación del postulado de simetrización para N = 2 . . . . . . . . . . . . . . . . . . . . . . . . . 603 26.7. Postulado de simetrización para N arbitrario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604 26.7.1. Postulado de simetrización para bosones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604 26.7.2. Postulado de simetrización para fermiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605 26.8. Construcción de una base de estados fı́sicos de partı́culas idénticas . . . . . . . . . . . . . . . . . . 606 26.8.1. Propiedades de los kets de ocupación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608 26.9. Consistencia del postulado de simetrización con los otros postulados . . . . . . . . . . . . . . . . . 609 26.9.1. Postulado de simetrización y el proceso de medida . . . . . . . . . . . . . . . . . . . . . . . 609 26.9.2. Postulado de simetrización y evolución temporal . . . . . . . . . . . . . . . . . . . . . . . . 610 26.10. Consecuencias fenomenológicas del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . 611 26.10.1.Diferencias entre fermiones y bosones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611
  • 13.
    ÍNDICE GENERAL 13 26.10.2.Estadobase de un sistema de partı́culas idénticas independientes . . . . . . . . . . . . . . . 611 26.11. Predicciones fı́sicas del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . . . . 613 26.11.1.Predicciones sobre partı́culas aparentemente idénticas . . . . . . . . . . . . . . . . . . . . . 615 26.11.2.Colisión elástica de dos partı́culas idénticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 616 26.12. Situaciones en las cuales se puede ignorar el postulado de simetrización . . . . . . . . . . . . . . . 617 26.12.1.Partı́culas idénticas ubicadas en regiones espaciales distintas . . . . . . . . . . . . . . . . . . 617 26.12.2.Identificación de partı́culas por su dirección de espı́n . . . . . . . . . . . . . . . . . . . . . . 619 27.Átomos de muchos electrones y aproximación de campo central 620 27.1. Aproximación de campo central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621 27.2. Configuraciones electrónicas de los átomos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624 28.El átomo de Helio 626 28.1. Configuraciones del átomo de Helio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626 28.1.1. Degeneración de las configuraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627 28.2. Efecto de la repulsión electrostática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 28.2.1. Base de E (n, l; n′, l′) adaptada a las simetrı́as de W . . . . . . . . . . . . . . . . . . . . . . 629 28.2.2. Restricciones impuestas por el postulado de simetrización . . . . . . . . . . . . . . . . . . . 631 28.2.3. Términos espectrales generados por la repulsión electrostática . . . . . . . . . . . . . . . . . 633 28.3. Términos espectrales que surgen de la configuración 1s, 2s . . . . . . . . . . . . . . . . . . . . . . . 634 28.3.1. La integral de intercambio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636 28.3.2. Análisis del papel del postulado de simetrización . . . . . . . . . . . . . . . . . . . . . . . . 637 28.3.3. Hamiltoniano efectivo dependiente del espı́n . . . . . . . . . . . . . . . . . . . . . . . . . . . 638 28.4. Términos espectrales que surgen de otras configuraciones excitadas . . . . . . . . . . . . . . . . . . 640 28.5. Validez del tratamiento perturbativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640 28.6. Estructura fina del átomo de helio y multipletes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641 29.Método de Hartree-Fock 644 29.1. Producto interno entre determinantes de Slater y un operador simétrico . . . . . . . . . . . . . . . 646 29.1.1. Ejemplo de aplicación para N = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648 29.2. Valor esperado de la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 29.2.1. Valor esperado de H(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 29.2.2. Valor esperado de H(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 29.2.3. Valor esperado de H = H(0) + H(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653 29.2.4. Interpretación fı́sica de los términos directo y de intercambio . . . . . . . . . . . . . . . . . 653 29.3. Método de Hartree-Fock para una capa cerrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654 29.3.1. Minimización de E [D] con ligaduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 29.3.2. Cálculo de δF [ψ, ψ∗ ] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656 29.4. Operadores de Hartree-Fock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658 29.5. Interpretación de la ecuación de Hartree-Fock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659 29.6. Solución por iteración de la ecuación de HF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659 29.7. Determinación del valor Fı́sico de la energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 660
  • 14.
    Capı́tulo 1 Linear orvector spaces We shall describe the most important properties of linear or vector spaces. This treatment is not rigorous at all, and only some simple proofs are shown. Our aim limits to provide a framework for our subsequent developments. 1.1. Definition of a linear vector space Any non-empty set of objects V = {xi} form a linear space (or a vector space) if there is a “sum” operation defined between the elements, and a “multiplication” by scalars (i.e. the system of real or complex numbers) such that 1. If xi ∈ V , and α is a scalar, then αxi ∈ V 2. If xi, xj ∈ V , then xi + xj ∈ V 3. xi + xj = xj + xi, ∀xi, xj ∈ V 4. xi + (xj + xk) = (xi + xj) + xk, ∀xi, xj, xk ∈ V 5. (α + β) xi = αxi + βxi ; ∀xi ∈ V 6. α (xi + xj) = αxi + αxj, ∀xi, xj ∈ V 7. (αβ) xi = α (βxi) ; ∀xi ∈ V 8. 1xi = xi ; ∀xi ∈ V 9. ∃ an element 0 ∈ V such that xi + 0 = xi, ∀xi ∈ V 10. ∀xi ∈ V , ∃ an element in V denoted by −xi such that xi + (−xi) = 0 The element 0 is usually called the null vector or the origin. The element −x is called the additive inverse of x. We should distinguish the symbols 0 (scalar) and 0 (vector). The two operations defined here (sum and product by scalars) are called linear operations. A linear space is real (complex) if we consider the scalars as the set of real (complex) numbers. Let us see some simple examples Example 1.1 The set of all real (complex) numbers with ordinary addition and multiplication taken as the linear operations. This is a real (complex) linear space. 14
  • 15.
    1.2. ALGEBRAIC PROPERTIES15 Example 1.2 The set Rn (Cn) of all n-tuples of real (complex) numbers is a real (complex) linear space under the following linear operations x ≡ (x1, x2, . . . , xn) ; y ≡ (y1, y2, . . . , yn) αx ≡ (αx1, αx2, , αxn) ; x + y ≡ (x1 + y1, x2 + y2, . . . , xn + yn) Example 1.3 The set of all bounded continuous real functions defined on a given interval [a, b] of the real line, with the linear operations defined pointwise as (f + g) (x) = f (x) + g (x) ; (αf) (x) = αf (x) ; x ∈ [a, b] We can see that a linear or vector space forms an abelian group whose elements are the vectors, and with addition as the law of combination. However, the vector space introduce an additional structure by considering multiplication by scalars which is not a group property. Some very important kinds of vector spaces are the ones containing certain sets of functions with some specific properties. We can consider for example, the set of functions defined on certain interval with some condition of continuity integrability etc. For instance, in quantum mechanics we use a vector space of functions. 1.2. Algebraic properties Some algebraic properties arise from the axioms: The origin or identity 0 must be unique. Assuming another identity 0′ we have that x + 0′ = 0′ + x = x for all x ∈ V. Then 0′ = 0′ + 0 = 0. Hence 0′ = 0. The additive inverse of any vector x is unique. Assume that x′ is another inverse of x then x′ = x′ + 0 = x′ + (x+ (−x)) = x′ + x + (−x) = 0 + (−x) = −x ⇒ x′ = −x xi + xk = xj + xk ⇒ xi = xj to see it, we simply add −xk on both sides. This property is usually called the rearrangement lemma. α · 0 = 0 we see it from α · 0 + αx = α · (0 + x) = αx = 0 + αx and applying the rearrangement lemma. 0 · x = 0 it proceeds from 0 · x + αx = (0 + α) x = αx = 0 + αx and using the rearrangement lemma. (−1) x = −x we see it from x+ (−1) x = 1 · x + (−1) x = (1 + (−1)) x = 0x = 0 = x+ (−x) and the rearrangement lemma. αx = 0 then α = 0 or x = 0; for if α 6= 0 we can multiply both sides of the equation by α−1 to give α−1 (αx) = α−10 ⇒ α−1α x = 0 ⇒ 1x = 0 ⇒ x = 0. If x 6= 0 we prove that α = 0 by assuming α 6= 0 and finding a contradiction. This is inmediate from the above procedure that shows that starting with α 6= 0 we arrive to x = 0. It is customary to simplify the notation in x+(−y) and write it as x−y. The operation is called substraction. 1.3. Vector subspaces Definition 1.1 A non-empty subset M of V is a vector subspace of V if M is a vector space on its own right with respect to the linear operations defined in V . This is equivalent to the condition that M contains all sums, negatives and scalar multiples. The other pro- perties are derived directly from the superset V . Further, since −x = (−1) x it reduces to say that M must be closed under addition and scalar multiplication. When M is a proper subset of V it is called a proper subspace of V . The zero space {0} and the full space V itself are trivial subspaces of V . The following concept is useful to study the structure of vector subspaces of a given vector space,
  • 16.
    16 CAPÍTULO 1.LINEAR OR VECTOR SPACES Definition 1.2 Let S = {x1, .., xn} be a non-empty finite subset of V , then the vector x = α1x1 + α2x2 + . . . + αnxn (1.1) is called a linear combination of the vectors in S. We can redefine a vector subspace by saying that a non-empty subset M of V is a linear subspace if it is closed under the formation of linear combinations. If S is a subset of V we can see that the set of all linear combinations of vectors in S is a vector subspace of V , we denote this subspace as [S] and call it the vector subspace spanned by S. It is clear that [S] is the smallest subspace of V that contains S. Similarly, for a given subspace M a non-empty subset S of M is said to span M if [S] = M. Note that the closure of a vector space under an arbitrary linear combination can be proved by induction from the closure property of vector spaces under linear operations. Notice additionally, that the proof of induction only guarantees the closure under any finite sum of terms, if we have an infinite sum of terms (e.g. a series) we cannot ensure that the result is an element of the space, this is the reason to define linear combinations as finite sums. If we want a property of closure under some infinite sums additional structure should be added as we shall see later. Suppose now that M and N are subspaces of V . Consider the set M + N of all sums of the form x + y with x ∈ M and y ∈ N. Since M and N are subspaces, this sum is the subspace spanned by the union of both subspaces M + N = [M ∪ N]. It could happen that M + N = V in this case we say that V is the sum of M and N. In turn it means that every vector in V is expressible as a sum of a vector in M plus a vector in N. Further, in some cases any element z of V is expressible in a unique way as such a sum, in this case we say that V is the direct sum of M and N and it is denoted by V = M ⊕ N we shall establish the conditions for a sum to become a direct sum Theorem 1.1 Let a vector space V be the sum of two of its subspaces V = M +N. Then V = M ⊕N ⇔ M ∩N = {0} Proof: Assume first that V = M ⊕ N, we shall suppose that ∃ z 6= 0 with z ∈ M ∩ N, and deduce a contradiction from it. We can express z in two different ways z = z + 0 with z ∈ M and 0 ∈ N or z = 0 + z with 0 ∈ M and z ∈ N. This contradicts the definition of a direct sum. Now assume M ∩ N = {0}, by hypothesis V = M + N so that any z ∈ V can be expressed by z = x1 + y1 with x1 ∈ M and y1 ∈ N. Suppose that there is another decomposition z = x2 + y2 with x2 ∈ M and y2 ∈ N. Hence x1 + y1 = x2 + y2 ⇒ x1 − x2 = y1 − y2; but x1 − x2 ∈ M and y1 − y2 ∈ N. Since they are equal, then both belong to the intersection so x1 − x2 = y1 − y2 = 0 then x1 = x2 and y1 = y2 showing that the decomposition must be unique. QED. When two vector subspaces of a given space have only the zero vector in common, it is customary to call them disjoint subspaces. It is understood that it does not correspond to disjointness in the set-theoretical sense, after all two subspaces of a given space cannot be disjoint as sets, since any subspace must contain 0. Thus no confusion arises from this practice. The concept of direct sum can be generalized when more subspaces are involved. We say that V is the direct sum of a collection of subspaces {M1, .., Mn} and denote it as V = M1 ⊕ M2 ⊕ . . . ⊕ Mn when each z ∈ V can be expressed uniquely in the form z = x1 + x2 + . . . + xn ; xi ∈ Mi In this case if V = M1 +..+Mn, this sum becomes a direct sum if and only if each Mi is disjoint from the subspace spanned by the others. To see it, it is enough to realize that V = M1 + M2 + .. + Mn = M1 + [M2 + .. + Mn] = M1 + [∪n i=2Mi]
  • 17.
    1.4. DIMENSION ANDBASES IN VECTOR SPACES 17 then V = M1 ⊕ [M2 + .. + Mn] if and only if M1 ∩ [∪n i=2Mi] = {0}, proceeding similarly for the other M′ is we arrive at the condition above. Note that this condition is stronger than the condition that any given Mi is disjoint from each of the others. The previous facts can be illustrated by a simple example. The most general non-zero proper subspaces of R3 are lines or planes that passes through the origin. Thus let us define M1 = {(x1, 0, 0)} , M2 = {(0, x2, 0)} , M3 = {(0, 0, x3)} M4 = {(0, x2, x3)} , M5 = {(x1, 0, x3)} , M6 = {(x1, x2, 0)} M1, M2, M3 are the coordinate axes of R3 and M4, M5, M6 are its coordinate planes. R3 can be expressed by direct sums of these spaces in several ways R3 = M1 ⊕ M2 ⊕ M3 = M1 ⊕ M4 = M2 ⊕ M5 = M3 ⊕ M6 for the case of R3 = M1⊕M2⊕M3 we see that the subspace spanned by M2 and M3 i.e. M2+M3 = [M2 ∪ M3] = M4 is disjoint from M1. Similarly M2 ∩[M1 ∪ M3] = {0} = M3 ∩[M1 ∪ M2]. It is because of this, that we have a direct sum. Now let us take M3, M6 and M′ defined as a line on the plane M4 that passes through the origin making an angle θ with the axis x3 such that 0 θ π/2, since R3 = M3 + M6 it is clear that R3 = M3 + M6 + M′ ; M3 ∩ M6 = M3 ∩ M′ = M6 ∩ M′ = {0} (1.2) however this is not a direct sum because M3 + M6 = R3 so that M′ ∩ (M3 + M6) 6= {0}. Despite each subspace is disjoint from each other, there is at least one subspace that is not disjoint from the subspace spanned by the others. Let us show that there are many decompositions for a given vector z ∈ R3 when we use the sum in (1.2). Since R3 = M3 +M6 a possible decomposition is z = x+y +0 with x ∈ M3, y ∈ M6, 0 ∈ M′. Now let us take an arbitrary non-zero element w of M′; clearly M3 +M6 = R3 contains M′ so that w = x′ +y′with x′ ∈ M3, y′ ∈ M6. Now we write z = x + y = (x − x′) + (y − y′) + x′ + y′ then z = (x − x′) + (y − y′) + w. We see that (x − x′) is in M3 and (y − y′) is in M6. Now, since w ∈ M′ and w 6= 0 this is clearly a different decomposition with respect to the original one. An infinite number of different decompositions are possible since w is arbitrary. Finally, it can be proved that for any given subspace M in V it is always possible to find another subspace N in V such that V = M ⊕N. Nevertheless, for a given M the subspace N is not neccesarily unique. A simple example is the following, in R2 any line crossing the origin is a subspace M and we can define N as any line crossing the origin as long as it is not collinear with M; for any N accomplishing this condition we have V = M ⊕ N. 1.4. Dimension and bases in vector spaces Definition 1.3 Let V be a vector space and S = {x1, .., xn} a finite non-empty subset of V . S is defined as linearly dependent if there is a set of scalars {α1, .., αn} not all of them zero such that α1x1 + α2x2 + .. + αnxn = 0 (1.3) if S is not linearly dependent we say that it is linearly independent, this means that in Eq. (1.3) all coefficients αi must be zero. Thus linear independence of S means that the only solution for Eq. (1.3) is the trivial one. When non-trivial solutions exists the set is linearly dependent. ¿What is the utility of the concept of linear independence of a given set S? to see it, let us examine a given vector x in [S], each of these vectors arise from linear combinations of vectors in S x = α1x1 + α2x2 + .. + αnxn ; xi ∈ S (1.4)
  • 18.
    18 CAPÍTULO 1.LINEAR OR VECTOR SPACES we shall see that for the ordered set S = {x1, .., xn} the corresponding ordered set {α1, .., αn} associated with x by Eq. (1.4) is unique. Suppose there is another decomposition of x as a linear combination of elements of S x = β1x1 + β2x2 + .. + βnxn ; xi ∈ S (1.5) substracting (1.4) and (1.5) we have 0 = (α1 − β1) x1 + (α2 − β2) x2 + .. + (αn − βn) xn but linear independence require that only the trivial solution exists, thus αi = βi and the ordered set of coefficients is unique. This is very important for the theory of representations of vector spaces. The discussion above permits to define linearly independence for an arbitrary (not necessarily finite) non-empty set S Definition 1.4 An arbitrary non-empty subset S ⊆ V is linearly independent if every finite non-empty subset of S is linearly independent in the sense previously established. As before, an arbitrary non-empty set S is linearly independent if and only if any vector x ∈ [S] can be written in a unique way as a linear combination of vectors in S. The most important linearly independent sets are those that span the whole space i.e. [S] = V this linearly independent sets are called bases. It can be checked that S is a basis if and only if it is a maximal linearly independent set, in the sense that any proper superset of S must be linearly dependent. We shall establish without proof a very important theorem concerning bases of vector spaces Theorem 1.2 If S is a linearly independent set of vectors in a vector space V , there exists a basis B in V such that S ⊆ B. In words, given a linearly independent set, it is always possible to add some elements to S for it to become a basis. A linearly independent set is non-empty by definition and cannot contain the null vector. Hence, we see that if V = {0} it does not contain any basis, but if V 6= {0} and we can take a non-zero element x of V , the set {x} is linearly independent and the previous theorem guarantees that V has a basis that contains {x}, it means that Theorem 1.3 Every non-zero vector space has a basis Now, since any set consisting of a single non-zero vector can be enlarged to become a basis it is clear that any non-zero vector space contains an infinite number of bases. It worths looking for general features shared by all bases of a given linear space. Tne first theorem in such a direction is the following Theorem 1.4 Let S = {x1, x2, .., xn} be a finite, odered, non-empty subset of the linear space V . If n = 1 then S is linearly dependent⇔ x1 = 0. If n 1 and x1 6= 0 then S is linearly dependent if and only if some one of the vectors x2, ..., xn is a linear combination of the vectors in the ordered set S that precede it. Proof: The first assertion is trivial. Then we settle n 1 and x1 6= 0. Assuming that one of the vectors xi in the set x2, ..., xn is a linear combination of the preceding ones we have xi = α1x1 + ... + αi−1xi−1 ⇒ α1x1 + ... + αi−1xi−1 − 1 · xi = 0 since the coefficient of xi is 1, this is a non-trivial linear combination of elements of S that equals zero. Thus S is linearly dependent. We now assume that S is linearly dependent hence the equation α1x1 + ... + αnxn = 0
  • 19.
    1.4. DIMENSION ANDBASES IN VECTOR SPACES 19 has a solution with at least one non-zero coefficcient. Let us define αi as the last non zero coefficient, since x1 6= 0 then i 1 then we have α1x1 + ... + αixi + 0 · xi+1 + ... + 0 · xn = 0 ⇒ xi = − α1 αi x1 + ... + − αi−1 αi xi−1 and xi is written as a linear combination of the vectors that precede it in the ordered set S. QED The next theorem provides an important structural feature of the set of bases in certain linear spaces Theorem 1.5 If a given non-zero linear space V has a finite basis B1 = {e1, ..., en} with n elements, then any other basis B2 = {fi} of V must be finite and also with n elements. The following theorem (that we give without proof) gives a complete structure to this part of the theory of vector spaces Theorem 1.6 Let V be a non-zero vector space. If B1 = {ei} and B2 = {uj} are two bases of the vector space, then B1 and B2 are sets with the same cardinality. These theorem is valid even for sets with infinite cardinality. This result says that the cardinality of a basis is a universal attribute of the vector space since it does not depend on the particular basis used. Hence the following are natural definitions Definition 1.5 The dimension of a non-zero vector space is the cadinality of any of its basis. If V = {0} the dimension is defined to be zero. Definition 1.6 A vector space is finite-dimensional if its dimension is a non negative integer. Otherwise, it is infinite-dimensional. As any abstract algebraic system, vector spaces requires a theory of representations in which the most abstract set is replaced by another set with more tangible objects. However, for the representation to preserve the abstract properties of the vector space, set equivalence and linear operations must be preserved. This induces the following definition Definition 1.7 Let V and V ′ two vector spaces with the same system of scalars. An isomorphism of V onto V ′ is a one-to-one mapping f of V onto V ′ such that f (x + y) = f (x) + f (y) and f (αx) = αf (x) Definition 1.8 Two vector spaces with the same system of scalars are called isomorphic if there exists an iso- morphism of one onto the other. To say that two vector spaces are isomorphic means that they are abstractly identical with respect to their structure as vector spaces. Now let V be a non zero finite dimensional space. If n is its dimension, there exists a basis B = {e1, .., en} whose elements are written in a definite order. Each vector x in V can be written uniquely in the form x = α1e1 + .. + αnen so the n−tuple (α1, .., αn) is uniquely determined by x. If we define a mapping f by f (x) = (α1, .., αn) we see that this is an isomorphism of V onto Rn or Cn depending on the system of scalars defined for V . Theorem 1.7 Any real (complex) non-zero finite dimensional vector space of dimension n is isomorphic to Rn (Cn).
  • 20.
    20 CAPÍTULO 1.LINEAR OR VECTOR SPACES Indeed, this theorem can be extended to vector spaces of arbitrary dimensions, we shall not discuss this topic here. By now, it suffices to realize that the isomorphism establishes here is not unique for it depends on the basis chosen and even on the order of vectors in a given basis. It can be shown also that two vector spaces V and V ′ are isomorphic if and only if they have the same scalars and the same dimension. From the results above, we could then be tempted to say that the abstract concept of vector space is no useful anymore. However, this is not true because on one hand the isomorphism depends on the basis chosen and most results are desirable to be written in a basis independent way. But even more important, almost all vector spaces studied in Mathematics and Physics posses some additional structure (topological or algebraic) that are not neccesarily preserve by the previous isomorphisms. 1.5. Mappings and transformations in vector spaces For two vector spaces V and V ′ with the same system of scalars we can define a mapping T of V into V ′ that preserves linear properties T (x + y) = T (x) + T (y) ; T (αx) = αT (x) T is called a linear transformation. We can say that linear transformations are isomorphisms of V into V ′ since linear operations are preserved. T also preserves the origin and negatives T (0) = T (0 · 0) = 0 · T (0) = 0 ; T (−x) = T ((−1) x) = (−1) T (x) = −T (x) we shall see later that the states of our physical systems are vectors of a given vector space. Hence, the transfor- mations of these vectors are also important in Physics because they will represent transformations in the states of our system. We shall see later that the set of all linear transformations are in turn vector spaces with their own internal organization. Let us now define some basic operations with linear transformations, a natural definition of the sum of two linear transformations is of the form (T + U) (x) ≡ T (x) + U (x) (1.6) and a natural definition of multiplication by scalars is (αT) (x) ≡ αT (x) (1.7) finally the zero and negative linear transformations are defined as 0 (x) ≡ 0 ; (−T) (x) ≡ −T (x) (1.8) with these definitions it is inmediate to establish the following Theorem 1.8 Let V and V ′ be two vector spaces with the same system of scalars. The set of all linear transfor- mations of V into V ′ with the linear operations defined by Eqs. (1.6, 1.7, 1.8) is itself a vector space. The most interesting cases are the linear transformations of V into itself and the linear transformations of V into the vector space of scalars (real or complex). We shall study now the first case. 1.6. Linear transformations of a vector space into itself In this case we usually speak of linear transformations on V . The first inmediate consequence is the capability of defining the composition of operators (or product of operators) (TU) (x) ≡ T (U (x)) (1.9)
  • 21.
    1.6. LINEAR TRANSFORMATIONSOF A VECTOR SPACE INTO ITSELF 21 associativity and distributivity properties can easily be derived T (UV ) = (TU) V ; T (U + V ) = TU + TV (T + U) V = TV + UV ; α (TU) = (αT) U = T (αU) we prove for instance [(T + U) V ] (x) = (T + U) (V (x)) = T (V (x)) + U (V (x)) = (TV ) (x) + (UV ) (x) = (TV + UV ) (x) commutativity does not hold in general. It is also possible for the product of two non-zero linear transformations to be zero. An example of non commutativity is the following: we define on the space P of polynomials p (x) the linear operators M and D M (p) ≡ xp ; D (p) = dp dx ⇒ (MD) (p) = M (D (p)) = xD (p) = x dp dx (DM) (p) = D (M (p)) = D (xp) = x dp dx + p and MD 6= DM. Suppose now the linear transformations on R2 given by Ta ((x1, x2)) = (x1, 0) ; Tb ((x1, x2)) = (0, x2) ⇒ TaTb = TbTa = 0 thus Ta 6= 0 and Tb 6= 0 but TaTb = TbTa = 0. Another natural definition is the identity operator I I (x) ≡ x we see that I 6= 0 ⇔ V 6= {0}. Further IT = TI = T for every linear operator T on V . For any scalar α the operator αI is called scalar multiplication since (αI) (x) = αI (x) = αx it is well known that for a mapping of V into V ′ to admit an inverse of V ′ into V requires to be one-to-one and onto. In this context this induces the definition Definition 1.9 A linear transformation T on V is non-singular if it is one-to-one and onto, and singular other- wise. When T is non-singular its inverse can be defined so that TT−1 = T−1 T = I it can be shown that when T is non-singular T−1 is also a non-singular linear transformation. For future purposes the following theorem is highly relevant Theorem 1.9 If T is a linear transformation on V , then T is non-singular⇔ T (B) is a basis for V whenever B is.
  • 22.
    22 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.6.1. Projection operators We shall discuss some very important types of linear transformations. Let V be the direct sum of two subspaces V = M ⊕ N it means that any vector z in V can be written in a unique way as z = x + y with x ∈ M and y ∈ N. Since x is uniquely determined by z this decomposition induces a natural mapping of V onto M in the form P (z) = x it is easy to show that this transformation is linear and is called the projection on M along N. The most important property of these transformations is that they are idempotent i.e. P2 = P we can see it taking into account that the unique decomposition of x is x = x + 0 so that P2 (z) = P (P (z)) = P (x) = x = P (z) The opposite is also true i.e. a given linear idempotent linear transformation induces a decomposition of the space V in a direct sum of two subspaces Theorem 1.10 If P is a linear transformation on a vector space V , P is idempotent⇔there exists subspaces M and N in V such that V = M ⊕ N and P is the projection on M along N. Proof: We already showed that decomposition in a direct sum induces a projection, to prove the opposite let define M and N in the form M ≡ {P (z) : z ∈ V } ; N = {z : P (z) = 0} M and N are vector subspaces and correspond to the range and the null space (or kernel) of the transformation P respectively. We show first that M + N = V , this follows from the identity z = P (z) + (I − P) (z) (1.10) P (z) belongs to M by definition, now P ((I − P) (z)) = (P (I − P)) (z) = P − P2 (z) = (P − P) (z) = 0 (z) = 0 thus (I − P) (z) belongs to the null space N so M + N = V . To prove that this is a direct sum we must show that M and N are disjoint (theorem 1.1). For this, assume that we have a given element P (z) in M that is also in N then P (P (z)) = 0 ⇒ P2 (z) = P (z) = 0 thus the common element P (z) must be the zero element. Hence, M and N are disjoint and V = M ⊕N. Further, from (1.10) P is the projection on M along N. Of course in z = x + y with x ∈ M, y ∈ N we can define a projection P′ (z) = y on N along M. In this case V = M ⊕ N = N ⊕ M but now M is the null space and N is the range. It is easy to see that P′ = I − P. On the other hand, we have seen that for a given subspace M in V we can always find another subspace N such that V = M ⊕ N so for a given M we can find a projector with range M and null space N. However, N is not unique so that different projections can be defined on M. Finally, it is easy to see that the range of a projector P corresponds to the set of points fixed under P i.e. M = {P (z) : z ∈ V } = {z : P (z) = z}. 1.7. Normed vector spaces Inspired in the vectors of Rn in which we define their lengths in a natural way, we can define lengths of vectors in abstract vector spaces by assuming an additional structure
  • 23.
    1.7. NORMED VECTORSPACES 23 Definition 1.10 A normed vector space N is a vector space in which to each vector x there corresponds a real number denoted by kxk with the following properties: (1) kxk ≥ 0 and kxk = 0 ⇔ x = 0.(2) kx + yk ≤ kxk + kyk (3) kαxk = |α| kxk As well as allowing to define a length for vectors, the norm permits to define a distance between two vectors x and y in the following way d (x, y) ≡ kx − yk it is easy to verify that this definition accomplishes the properties of a metric d (x, y) ≥ 0 and d (x, y) = 0 ⇔ x = y d (x, y) = d (y, x) ; d (x, z) ≤ d (x, y) + d (y, z) in turn, the introduction of a metric permits to define two crucial concepts: (a) convergence of sequences, (b) continuity of functions of N into itself (or into any metric space). We shall examine both concepts briefly 1.7.1. Convergent sequences, cauchy sequences and completeness If X is a metric space with metric d a given sequence in X {xn} = {x1, .., xn, ...} is convergent if there exists a point x in X such that for each ε 0, there exists a positive integer n0 such that d (xn, x) ε for all n ≥ n0. x is called the limit of the sequence. A very important fact in metric spaces is that any convergent sequence has a unique limit. Further, assume that x is the limit of a convergent sequence, it is clear that for each ε 0 there exists n0 such that m, n ≥ n0 ⇒ d (x, xm) ε/2 and d (x, xn) ε/2 using the properties of the metric we have m, n ≥ n0 ⇒ d (xm, xn) ≤ d (xm, x) + d (x, xn) ε 2 + ε 2 = ε a sequence with this property is called a cauchy sequence. Thus, any convergent sequence is a cauchy sequence. The opposite is not necessarily true. As an example let X be the interval (0, 1] the sequence xn = 1/n is a cauchy sequence but is not convergent since the point 0 (which it wants to converge to) is not in X. Then, convergence depends not only on the sequence itself, but also on the space in which it lies. Some authors call cauchy sequences “intrinsically convergent” sequences. A complete metric space is a metric space in which any cauchy sequence is convergent. The space (0, 1] is not complete but it can be made complete by adding the point 0 to form [0, 1]. In fact, any non complete metric space can be completed by adjoining some appropiate points. It is a fundamental fact that the real line, the complex plane and Rn, Cn are complete metric spaces. We define an open sphere of radius r centered at x0 as the set of points such that Sr (x0) = {x ∈ X : d (x, x0) r} and an open set is a subset A of the metric space such that for any x ∈ A there exists an open sphere Sr (x) such that Sr (x) ⊆ A. For a given subset A of X a point x in X is a limit point of A if each open sphere centered on x contains at least one point of A different from x. A subset A is a closed set if it contains all its limit points. There is an important theorem concerning closed metric subspaces of a complete metric space Theorem 1.11 Let X be a complete metric space and Y a metric subspace of X. Then Y is complete⇔it is closed.
  • 24.
    24 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.7.2. The importance of completeness in quantum mechanics In quantum mechanics we work in an infinite dimensional vector space of functions in which we shall frequently encounter series of the form ∞ X n=1 cnψn with ψn being functions in our space that describe physical states and cn are some appropiate coefficients. For this series to have any physical sense, it must be convergent. To analyze convergence we should construct the sequence of partial sums ( 1 X n=1 cnψn, 2 X n=1 cnψn, 3 X n=1 cnψn, ... ) if this series is “intrisically” convergent the corresponding sequence of partial sums should be a cauchy sequence. Any series that defines a cauchy sequence has a bounded norm ∞ X n=1 cnψn ∞ it would then be desirable that an intrinsically convergent series given by a superposition of physical states ψn be another physical state ψ. In other words, the limit of the partial sums should be within the vector space that describe our physical states. To ensure this property we should demand completeness of the vector space that describe the physical states of the system. On the other hand, it would be usual to work with subspaces of the general physical space. If we want to guarantee for a series in a given subspace to be also convergent, we should require for the subspace to be complete by itself, and according to theorem 1.11 it is equivalent to require the subspace to be closed with respect to the total space. Therefore, closed subspaces of the general space of states would be particularly important in quantum mechanics. 1.7.3. The concept of continuity and its importance in Physics The concept of continuity arises naturally for mappings of a metric space into another metric space. Let f be a mapping of (X, d1) into (Y, d2) we say that f is continuous at x0 ∈ X if for each ε 0 there exists δ 0 such that d1 (x, x0) δ ⇒ d2 (f (x) , f (x0)) ε. This mapping is said to be continuous if it is continuous for each point in its domain. Continuity is also an essential property in Physics since for most of physical observables or states we require some kind of “smoothness” or “well behavior”. Continuity is perhaps the weakest condition of well behavior usually required in Physics. We have previously defined isomorphisms as mappings that preserve all structure concerning a general vector space. It is then natural to characterize mappings that preserve the structure of a set as a metric space Definition 1.11 If X, Y are two metric spaces with metrics d1 and d2 a mapping f of X into Y is an isometry if d1 (x, x′) = d2 (f (x) , f (x′)) ∀x, x′ ∈ X. If there exists an isometry of X onto Y , we say that X is isometric to Y . It is clear that an isometry is necessarily one-to-one. If X is isometric to Y then the points of these spaces can be put in a one to one correspondence in such a way that the distance between pairs of corresponding points are the same. In that sense, isometric spaces are abstractly identical as metric spaces. For instance, if we endow a vector space V with a metric then another metric vector space V ′ will be identical to V as metric and vector space if and only if there is an isometric isomorphism between them. Isometry preserves metric (distances) while isomorphism preserve vector structure (linear operations). Of course a norm-preserving mapping is an isometry for the metric induced by such a norm. Thus for our purposes norm preserving mappings will be isometries.
  • 25.
    1.8. BANACH SPACES25 1.8. Banach Spaces From our experience in classical mechanics we have seen that the concept of a vector space is useful especially when we associate a length to the vectors, this induces the concept of normed vector spaces, the norm in turn induces a metric i.e. a natural concept of the distance between vectors. Metric structure in turn lead us to the concepts of convergent sequences and continuity of functions. In particular, the previous discussion concerning completeness incline us in favor of spaces that are complete. Then we are directly led to normed and complete linear spaces Definition 1.12 A banach space is a normed and complete vector space As in any vector space, linear transformations are crucial in the characterization of Banach spaces. Since a notion of continuity is present in these spaces and continuity is associated with well behavior in Physics, it is natural to concentrate our attention in continuous linear transformations of a banach space B into itself or into the set of scalars. Transformations of B into itself will be useful when we want to study posible modifications of the vectors (for instance the time evolution of the vectors describing the state of the system). On the other hand, transformations of B into the scalars will be useful when we are interested in connecting the state of a system (represented by a vector) with a measurement (which is a number). Before considering each specific type of continuous linear transformation, we should clarify what the meaning of continuity of a linear transformation is. Since continuity depends on the metric induced on the space, we should define for a given space of linear transformations on a Banach space B, a given metric. We shall do it by first defining a norm, specifically we shall define the following norm kTk = sup {|T (x)| : kxk ≤ 1} (1.11) We shall refer to the metric induce by this norm when we talk about the continuity of any linear transformation of a Banach space into itself or into the scalars. It can be shown that for this norm continuity is equivalent to boundedness. 1.8.1. Continuous linear transformations of a Banach space into scalars Let us consider first the continuous linear transformations of B into the scalars. This induces the following Definition 1.13 A real (or complex) functional is a continuous linear transformation of a real (or complex) normed linear space into R (or C). Definition 1.14 The set of all functionals on a normed linear space N is called the conjugate space of N and is denoted by N∗. For the case of general normed spaces (and even for Banach spaces), the structure of their conjugate spaces is in general very intrincate. However we shall see that conjugate spaces are much simpler when an additional structure (inner product) is added to Banach spaces. 1.8.2. Continuous linear transformations of a Banach space into itself Let us discuss now the continuous linear transformations of Banach spaces into themselves. Definition 1.15 An operator is a continuous linear transformation of a normed space into itself. A particularly useful result in quantum mechanics is the following Theorem 1.12 If a one-to-one linear transformation T of a Banach space onto itself is continuous, then its inverse is automatically continuous
  • 26.
    26 CAPÍTULO 1.LINEAR OR VECTOR SPACES Though we do not provide a proof, it is important to note that this result requires the explicit use of com- pleteness (it is not valid for a general normed space). We see then that completeness gives us another desirable property in Physics: if a given transformation is continuous and its inverse exist, this inverse transformation is also continuous. Let us now turn to projectors on Banach spaces. For general vector spaces projectors are defined as idempotent linear transformations. For Banach spaces we will required an additional structure which is continuity Definition 1.16 A projector in a Banach space B, is defined as an idempotent operator on B The consequences of the additional structure of continuity for projectors in Banach spaces are of particular interest in quantum mechanics Theorem 1.13 If P is a projection on a Banach space B, and if M and N are its range and null space. Then M and N are closed subspaces of B such that B = M ⊕ N The reciprocal is also true Theorem 1.14 Let B be a banach space and let M and N be closed subspaces of B such that B = M ⊕ N. If z = x + y is the unique representation of a vector z in B with x in M and y in N. Then the mapping P defined by P (z) = x is a projection on B whose range and null space are M and N respectively. These properties are interesting in the sense that the subspaces generated by projectors are closed subspaces of a complete space, and then they are complete by themselves. We have already said that dealing with complete subspaces is particularly important in quantum mechanics. There is an important limitation with Banach spaces. If a closed subspace M is given, though we can always find many subspaces N such that B = M ⊕ N there is not guarantee that any of them be closed. So there is not guarantee that M alone generates a projection in our present sense. The solution of this inconvenience is another motivation to endow B with an additional structure (inner product). Finally, the definition of the conjugate N∗ of a normed linear space N, induces to associate to each operator in the normed linear space N and operator on N∗ in the following way. Let us form a complex number c0 with three objects, an operator T on N, a functional f on N and an element x ∈ N, we take this procedure: we map x in T (x) and then map this new element of N into the scalar c0 through the functional f x → T (x) → f (T (x)) = c0 Now we get the same number with other set of three objects an operator T∗ on N∗, a functional f on N (the same functional of the previous procedure) and an element x ∈ N (the same element stated before), the steps are now the following, we start with the functional f in N∗ and map it into another functional through T∗, then we apply this new functional to the element x and produce the number c0. Schematically it is f → T∗ (f) → [T∗ (f)] (x) = c0 with this we are defining an apropiate mapping f′ such that f′ (x) gives our number. In turn it induces an operator on N∗ that maps f in f′ and this is the newly defined operator T∗ on N∗. In summary this definition reads [T∗ (f)] (x) ≡ f (T (x)) (1.12) where f is a functional on N i.e. an element in N∗, T an operator on N and x an element of N. If for a given T we have that Eq. (1.12) holds for f and x arbitrary, we have induced a new operator T∗ on N∗ from T. It can be shown that T∗ is also linear and continuous i.e. an operator. When inner product is added to the structure, this operator becomes much simpler.
  • 27.
    1.9. HILBERT SPACES27 By using the norm (1.11) applied to operators on B∗ we have kT∗ k = sup {kT∗ (f)k : kfk ≤ 1} it can be proved that kT∗ k = kTk (1.13) such that the mapping T → T∗ is norm preserving and therefore an isometry, we can also see that (αT1 + βT2)∗ = αT∗ 1 + βT∗ 2 ; I∗ = I ; (T1T2)∗ = T∗ 2 T∗ 1 (1.14) since linear operations are preserved the mapping T → T∗ is an isometric isomorphism. However, the product is reversed under the mappping, this shows that the spaces ß(T) and ß(T∗) are equivalent as metric and vector spaces but they are not equivalent as algebras (the spaces are not isomorphic as algebras). 1.9. Hilbert spaces In R3 it is customary to define a set of three ortonormal vectors ui such that any vector in R3 can be written as x = αiui sum over repeated indices. The dot product is defined such that x · y ≡ kxk kyk cos θ (1.15) the dot product is a good mathematical tool for many purposes in solid analytic geometry. If we accept the statement that the zero vector is orthogonal to every vector we can say that the dot product is null if and only if both vectors are orthogonal. Let {vi} be a given basis (not necessarily orthonormal) of R3; any two vectors in R3 are expressed in the form x = αivi ; y = βjvj (1.16) the dot product and the norm of these two vectors can be written x · y = (αivi) · (βjvj) = αiβjvi · vj ≡ αiβjmij x · x = kxk2 = (αivi) · (αjvj) = αiαjvi · vj ≡ αiαjmij These expressions can be in general complicated. Notice that these and other algebraic operations with dot products become much easier when an orthonormal basis is used since in this case we have mij = δij so that x · y = αiβi and x · x = αiαi. These facts put orthonormal basis in a privileged position among other bases. Further, an attempt of extension of these ideas to C3 permits to define the inner product in this space in the following way, given the vectors (1.16) where α and β are complex we define (x, y) = (α∗ i vi) · (βjvj) = α∗ i βjmij the conjugate on α appears to obtain the norm of a complex vectors with the inner product of such a vector with itself, as can be seen by using an orthonormal basis in which mij = δij (x, x) = kxk2 = α∗ i αi = |αi| |αi| the simplification above comes from the extension of the concept of orthogonality to complex vectors, they are orthogonal if and only if (x, y) = 0. In both the real and complex cases, the concept of orthogonality was very important not only because of the geometry but also because of the algebra. We observe for instance, that no angle like the one in (1.15) can be defined in the complex case, but the algebra of inner products continues being simple and useful. On the same ground, we were able to talk about orthogonality in the complex case via the inner product and exploit the advantages of orthonormal sets, although two vectors of the complex plane are not “perpendicular”.
  • 28.
    28 CAPÍTULO 1.LINEAR OR VECTOR SPACES In the same way, in abstract vector spaces is not so clear how to use the concept of orthogonality in a geometrical way, but from the discussion above it is clear that the extension of the concept would represent great simplifications from the algebraic sense. Notwithstanding, we shall see that the extension of the concept of inner product will also provide some geometrical interpretations. As always in mathematics, a natural extension should come from the extrapolation of the essential properties of the concept in the restricted way, the inner product in the complex and real spaces has the following properties (x, αy + βz) = α (x, y) + β (x, z) ; (x, y) = (y, x)∗ ; (x, x) = kxk2 we are led to the following Definition 1.17 A Hilbert space is a real or complex Banach space whose norm arises from an inner product, which in turn is defined as a complex function (x, y) of the vectors x and y with the following properties (x, αy + βz) = α (x, y) + β (x, z) (x, y) = (y, x)∗ (x, x) = kxk2 Definition 1.18 Two vectors x, y in a Hilbert space are said to be orthogonal if (x, y) = 0, we denote it as x ⊥ y. A vector is said to be normal or unitary if (x, x) = 1. From the definition the following properties hold |(x, y)| ≤ kxk kyk (1.17) kx + yk2 + kx − yk2 = 2 kxk2 + 2 kyk2 (1.18) 4 (x, y) = kx + yk2 − kx − yk2 + i kx + iyk2 − i kx − iyk2 (1.19) x ⊥ y ⇒ kx + yk2 = kx − yk2 = kxk2 + kyk2 (1.20) Eq. (1.17) is known as the Schwarz inequality. Eq. (1.18) is known as the paralelogram law because in plane geometry it reduces to the theorem which says that the sum of the squares of the sides of a paralelogram equals the sum of the squares of its diagonals. As well as its geometrical interpretation, this law says that only certain Banach spaces can be converted into Hilbert spaces, only those normed complete spaces in which the norm obeys the paralelogram law can become a Hilbert space. Further, if for a given norm, the paralelogram law is satisfied, then Eq. (1.19), gives us the recipe to define an inner product from such a norm. Finally, for reasons easy to visualize Eq. (1.20) is called the pithagorean theorem. As a matter of illustration let us prove the paralelogram law Eq. (1.18) kx + yk2 + kx − yk2 = (x + y, x + y) + (x − y, x − y) = (x, x + y) + (y, x + y) + (x, x − y) − (y, x − y) = (x, x) + (x, y) + (y, x) + (y, y) + (x, x) − (x, y) − (y, x) + (y, y) = (x, x) + (y, y) + (x, x) + (y, y) = 2 kxk2 + 2 kyk2 A vector x is said to be orthogonal to a non empty set S, if x ⊥ y for all y ∈ S. The orthogonal complement of S is the set of all vectors orthogonal to S, it is denoted as S⊥. Two non empty sets M and N are orthogonal if x ⊥ y for all x ∈ M and for all y ∈ N; this is denoted as M ⊥ N. If M is a closed vector subspace of H then M⊥ is also closed. The following theorems are important for physical purposes Theorem 1.15 If M and N are closed vector subspaces of a Hilbert space H such that M ⊥ N, then the linear subspace M + N is also closed Theorem 1.16 If M is a closed linear subspace of a Hilbert space H, then H = M ⊕ M⊥
  • 29.
    1.9. HILBERT SPACES29 Thus we see that the expansion of the union of closed subspaces preserves the closure property and so the completeness property too. In addition, theorem 1.16 says that given a closed subspace of H we can always find a closed subspace to generate H by direct sum. Besides, the closed space that makes the work is the orthogonal complement. It means that for any given closed subspace M we can define a projection with range M and null space M⊥. Contrast this with the problem arising in Banach spaces in which we cannot guarantee the closure of the complementary space. 1.9.1. Orthonormal sets An orthonormal set {ei} in H is a non empty subset of H such that if i 6= j then ei ⊥ ej and keik = 1 for all i. this set could be of any cardinality (non necessarily countable). The zero Hilbert space has no orthonormal sets. The following theorems are of great practical interest Theorem 1.17 Let {e1, .., en} be a finite orthonormal set in H. If x is a vector in H we have n X i=1 |(ei, x)|2 ≤ kxk2 (1.21) x − n X i=1 (ei, x) ei ⊥ ej ; j = 1, .., n (1.22) We can give the following interpretation of this theorem: Eq. (1.21) says that the sum of the components of a vector in the various orthogonal directions defined by the ortonormal set, cannot exceed the length of the vector. Similarly, Eq. (1.22) says that if we substract from a vector its components in several perpendicular directions the resultant has no components left in those directions. The following theorem shows that the coefficients obtained for a given vector from an orthonormal set are not arbitrary Theorem 1.18 If {ei} is an orthonormal set in a Hilbert space H, and if x is any vector in H, the set S = n ei : |(ei, x)|2 6= 0 o is either empty or countable. These results permit to extend theorem 1.17 for arbitrary orthonormal sets Theorem 1.19 Let {ei} be an arbitrary orthonormal set in H. If x is a vector in H we have X |(ei, x)|2 ≤ kxk2 (1.23) x − X (ei, x) ei ⊥ ej ; j = 1, .., n (1.24) where the symbol of sum means the following, defining the set S = n ei : |(ei, x)|2 6= 0 o , we define the sum to be zero (number or vector) when S is empty. If S is finite, the definitions in (1.24, 1.23) coincide with the ones in (1.21, 1.22), if S is countably infinite, the sums become series P∞ n=1 for a given order of the set S = {e1, .., ei, ..}, in this case the limit of the series is independent of the order chosen for S. Definition 1.19 An orthonormal set in H is said to be complete if it is maximal, that is, if it is impossible to add an element e to the set while preserving the orthonormality in the new set. Theorem 1.20 Every orthonormal set in a Hilbert space is contained in a complete orthonormal set Theorem 1.21 Every non-zero Hilbert space contains a complete orthonormal set
  • 30.
    30 CAPÍTULO 1.LINEAR OR VECTOR SPACES Theorem 1.22 Every orthonormal set is linearly independent Theorem 1.23 Let H be a Hilbert space and {ei} an orthonormal set in H. The following conditions are equi- valent to one another {ei} is complete (1.25) x ⊥ {ei} ⇒ x = 0 (1.26) ∀ x ∈ H ⇒ x = X (ei, x) ei (1.27) ∀ x ∈ H ⇒ kxk2 = X |(ei, x)|2 (1.28) This is perhaps the most important theorem in terms of applications in Physics, and in particular quantum mechanics. It is convenient to discuss some terminology related with it. The numbers (x, ei) are called the Fourier coeeficients of x and Eq. (1.27) is its Fourier expansion. Eq. (1.28) is called Parseval’s equation. All these equations refer to a given complete orthonormal set. This sequence of theorems are similar to the ones explained in the general theory of vector spaces in which complete orthonormal sets replaced the concept of bases, and fourier expansions replaced linear combinations. It is clear that for finite dimensional spaces Fourier expansions become linear combinations. On the other hand, since orthonormal sets are linearly independent (Theorem 1.22), it is easy to see that in the case of finite dimensional spaces complete orthonormal sets are linearly independent sets that generate any vector by linear combinations. Hence, complete orthonormal sets are bases. For infinite dimensional spaces there is a different story. If we remember that linear combinations are finite by definition, we see that in this case Fourier expansions are not linear combinations. For a given linearly independent set to be a basis, it is necessary for any vector of the space to be written as a linear combination of such a set, basis certainly exists for Hilbert spaces according to theorem 1.3 but complete orthonormal sets are NOT bases in the sense defined for the general theory of vector spaces. Moreover theorem 1.18 shows that the Fourier expansion given in Eq. (1.27) is always countable, this is a remarkable result because it means that the fourier expansion for a given complete orthonormal set is always a series, even if the cardinality of the complete orthonormal set is higher than the aleph (cardinality of the integers). The informal discussion above can be formally proved to produce the following statement Theorem 1.24 A Hilbert space is finite dimensional if and only if every complete orthonormal set is a basis. However, owing to the analogy between bases and complete orthonormal sets the following theorem is quite expected Theorem 1.25 Any two complete orthonormal sets of a given Hilbert space have the same cardinality. And this fact induces a natural definition Definition 1.20 The orthogonal dimension of a Hilbert space H is the cardinality of any complete orthonormal set in H. It is important to keep in mind the difference between the dimension and the orthogonal dimension of a Hilbert space of infinite dimension.
  • 31.
    1.9. HILBERT SPACES31 1.9.2. The conjugate space H∗ We have defined the conjugate space of a Banach space B as the set of all functionals in B i.e. of all linear continuous mappings of B into the scalars. We said however that the structure of the conjugate spaces of an arbitrary Banach space is very complex. Fortunately, this is not the case for Hilbert spaces in which the inner product provides a natural association between H and H∗. Let y be a fixed vector in H and consider the function fy defined by fy (x) ≡ (y, x) (1.29) it is easy to prove linearity fy (αx1 + βx2) = (y, αx1 + βx2) = α (y, x1) + β (y, x2) fy (αx1 + βx2) = αfy (x1) + βfy (x2) continuity comes from the Schwarz inequality |fy (x)| = |(x, y)| ≤ kxk kyk ⇒ |fy (x)| ≤ kyk then fy is bounded and so continuous. Indeed it can be shown that |fy (x)| = kyk. We then have found an algorithm to generate some functionals from the mapping y → fy (1.30) described above, this is a norm preserving mapping of H into H∗. However, it can be shown that indeed this is a mapping of H onto H∗ as stated in this Theorem 1.26 Let H be a Hilbert space, and f an arbitrary functional in H∗. Then there exists a unique vector y ∈ H such that f (x) = (y, x) ∀x ∈ H since the mapping (1.30) is norm preserving, we wonder whether it is linear, this is not the case because fy1+y2 (x) = (y1 + y2, x) = (y1, x) + (y2, x) = fy1 (x) + fy2 (x) fαy (x) = (αy, x) = α∗ (y, x) = α∗ fy (x) such that fy1+y2 = fy1 + fy2 ; fαy = α∗ fy (1.31) however the mapping (1.30) is an isometry (it preserves metric) since kfx − fyk = kfx−yk = kx − yk we can characterize H∗ in the following way Theorem 1.27 H∗ is a Hilbert space with respect to the inner product defined by (fx, fy) = (y, x).
  • 32.
    32 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.9.3. The conjugate and the adjoint of an operator A really crucial aspect of the theory of Hilbert spaces in Physics is the theory of operators (continuous linear transformations of H into itself), we shall see later that observables in quantum mechanics appear as eigenvalues of some of these operators. We have defined the conjugate of an operator for Banach spaces but they are still too general to get a rich structural theory of operators. The natural correspondence between H and H∗ will provide a natural relation between a given operator on H and its corresponding conjugate operator on H∗. Let T be an operator on a Banach space B. We defined an operator on B∗ denoted T∗ and called the conjugate of T by Eq. (1.12) [T∗ (f)] (x) = f (T (x)) (1.32) and Eqs. (1.13, 1.14) says that T → T∗ is an isometric isomorphism (as vector spaces) between the spaces of linear operators on H and H∗. We shall see that the natural correspondence between H and H∗ permits to induce in turn an operator T† in H from the operator T∗ in H∗. The procedure is the following: starting from a vector y in H we map it into its corresponding functional fy, then we map fy by the operator T∗ to get another functional fz then we map this functional into its (unique) corresponding vector z in H the scheme reads y → fy → T∗ fy = fz → z (1.33) the whole process is a mapping of y to z i.e. of H into itself. We shall write it as a single mapping of H into itself in the form y → z ≡ T† y the operator T† induced in this way from T∗ is called the adjoint operator. Its action can be understood in the context of H only as we shall see. For every vector x ∈ H we use the definition of T∗ Eq. (1.32) to write [T∗ (fy)] (x) = fy (T (x)) = (y, Tx) [T∗ fy] (x) = fz (x) = (z, x) = T† y, x where we have used Eqs. (1.29, 1.33), so that (y, Tx) = T† y, x ∀x, y ∈ H (1.34) we can see that Eq. (1.34) defines T† uniquely and we can take it as an alternative definition of the adjoint operator associated with T. It can also be verified that T† is indeed an operator, i.e. that it is continuous and linear. We can also prove the following Theorem 1.28 The adjoint operation T → T† is a one-to-one onto mapping with these properties (T1 + T2)† = T† 1 + T† 2 , (αT)† = α∗ T† , T† † = T (T1T2)† = T† 2 T† 1 ; T† = kTk ; T† T = TT† = kTk2 0∗ = 0 , I∗ = I (1.35) If T is non-singular then T† is also non-singular and T† −1 = T−1 †
  • 33.
    1.10. NORMAL OPERATORS33 Notice for instance that T† † = T implies that (Ty, x) = y, T† x ∀x, y ∈ H (1.36) We define the commutator of a couple of operators T1, T2 as [T1, T2] ≡ T1T2 − T2T1 this operation has the following properties [T1, T2] = − [T2, T1] (1.37) [αT1 + βT2, T3] = α [T1, T3] + β [T2, T3] (1.38) [T1, αT2 + βT3] = α [T1, T2] + β [T1, T3] (1.39) [T1T2, T3] = T1 [T2, T3] + [T1, T3] T2 (1.40) [T1, T2T3] = T2 [T1, T3] + [T1, T2] T3 (1.41) [[T1, T2] , T3] + [[T3, T1] , T2] + [[T2, T3] , T1] = 0 (1.42) such properties can be proved directly from the definition, Eq. (1.37) shows antisymmetry and Eqs. (1.38, 1.39) proves linearity. Finally, relation (1.42) is called the Jacobi identity. It can be seen that the space of operators on a Hilbert space H (called ß(H)) is a Banach space and more generally a Banach Algebra. This organization permits an elegant theory of the operators on Hilbert spaces. The theory of quantum mechanics works on a Hilbert space. In addition, the most important operators on the Hilbert space in quantum mechanics are self-adjoint and unitary operators, which are precisely operators that have a specific relation with their adjoints. 1.10. Normal operators Definition 1.21 An operator on a Hilbert space H that commutes with its adjoint N, N† = 0 is called a normal operator There are two reasons to study normal operators (a) From the mathematical point of view they are the most general type of operators for which a simple structure theory is possible. (b) they contain as special cases the most important operators in Physics: self-adjoint and unitary operators. It is clear that if N is normal then αN is. Further, the limit N of any convergent sequence of normal operators {Nk} is also normal NN† − N† N ≤ NN† − NkN† k + NkN† k − N† kNk + N † kNk − N† N = NN† − NkN† k + N† kNk − N† N → 0 then NN† − N†N = 0 and N is normal then we have proved Theorem 1.29 The set of all normal operators on H is a closed subset of ß(H) that is closed under scalar multiplication It is natural to wonder whether the sum and product of normal operators is normal. They are not, but we can establish some conditions for these closure relations to occur Theorem 1.30 If N1 and N2 are normal operators on H with the property that either commutes with the adjoint of the other, then N1 + N2 and N1N2 are normal.
  • 34.
    34 CAPÍTULO 1.LINEAR OR VECTOR SPACES The following are useful properties for the sake of calculations in quantum mechanics Theorem 1.31 An operator N on H is normal ⇔ kNxk = N†x ∀x ∈ H Theorem 1.32 If N is a normal operator on H then N2 = kNk2 1.11. Self-Adjoint operators We have said that the space of operators on a Hilbert space H (called ß(H)), is a special type of algebra (a Banach Algebra) which has an algebraic structure similar to the one of the complex numbers, except for the fact that the former is non-commutative. In particular, both are complex algebras with a natural mapping of the space into itself of the form T → T† and z → z∗ respectively. The most important subsystem of the complex plane is the real line defined by the relation z = z∗, the corresponding subsystem in ß(H) is therefore defined as T = T†, an operator that accomplishes that condition is called a self-adjoint operator. This is the simplest relation that can be established between an operator and its adjoint. It is clear that self-adjoint operators are normal. Further, we already know that 0† = 0 and I† = I thus they are self-adjoint. A real linear combination of self-adjoint operators is also self-adjoint (αT1 + βT2)† = α∗ T† 1 + β∗ T† 2 = αT† 1 + βT† 2 further, if {Tn} is a sequence of self adjoint operators that converges to a given operator T, then T is also self-adjoint T − T† ≤ kT − Tnk + Tn − T† n + T† n − T† = kT − Tnk + kTn − Tnk + T† n − T† = kT − Tnk + (Tn − T)† = kT − Tnk + k(Tn − T)k = 2 kT − Tnk → 0 shows that T − T† = 0 so that T = T† this shows the following Theorem 1.33 The self-adjoint operators in ß(H) are a closed real linear subspace of ß(H) and therefore a real Banach space which contains the identity transformation Unfortunately, the product of self-adjoint operators is not necessarily self-adjoint hence they do not form an algebra. The only statement in that sense is the following Theorem 1.34 If T1, T2 are self-adjoint operators on H, their product is self-adjoint if and only if [T1, T2] = 0 It can be easily proved that T = 0 ⇔ (x, Ty) = 0 ∀x, y ∈ H. It can be seen also that Theorem 1.35 If T is an operator on a complex Hilbert space H then T = 0 ⇔ (x, Tx) = 0 ∀x ∈ H. It should be emphasized that the proof makes explicit use of the fact that the scalars are complex numbers and not merely the real system. The following theorem shows that the analogy between self-adjoint operators and real numbers goes beyond the simple analogy from which the former arise Theorem 1.36 An operator T on H is self-adjoint⇔ (x, Tx) is real ∀x ∈ H. An special type of self-adjoint operators are the following ones Theorem 1.37 A positive operator on H is a self-adjoint operator such that (x, Tx) ≥ 0, ∀x ∈ H. Further, if (x, Tx) ≥ 0, and (x, Tx) = 0 ⇔ x = 0 we say that the operator is positive-definite.
  • 35.
    1.12. UNITARY OPERATORS35 It is clear that the following operators are positive: 0, I, TT†, T†T note also that all the analoguous elements in the complex plane are non-negative numbers 0, 1, zz∗ = z∗z = |z|2 . Theorem 1.38 If A is a positive operator then I + A is non-singular Continuing the analogy between ß(H) and the algebra of complex numbers, we can see that a complex number can be written as its real and imaginary parts in the form z = a1 + ia2 ; a1 ≡ z + z∗ 2 , a2 ≡ z − z∗ 2i in a similar way we can decompose an arbitrary operator T on H in the form T = A1 + iA2 ; A1 ≡ T + T† 2 ; A2 ≡ T − T† 2i (1.43) it is clear that A1 and A2 are self-adjoint so they can be called the “real” and “imaginary” components of the T operator. If T is self-adjoint its imaginary part is zero as expected. We can see that it is precisely because of the non commutativity of the self-adjoint operators that non-normal operators exist Theorem 1.39 If T is an operator on H it is normal ⇔ its real and imaginary parts commute 1.12. Unitary operators Perhaps the most important subsystem of the complex plane after the real line is the unit circle characterized by the equation zz∗ = z∗z = |z|2 = 1. This leads to a natural definition of an special subset of the normal operators Definition 1.22 An operator U on H which satisfies the equation UU† = U†U = I is said to be unitary Unitary operators are thus the analogues of complex numbers of unitary absolute value. In words, unitary operators are those non-singular operators whose inverses equal their adjoints, they are thus mappings of H onto itself. The geometric significance of these operators can be clarified with the following theorem Theorem 1.40 If T is an operator on H, the following conditions are equivalent to one another T† T = I (1.44) (Tx, Ty) = (x, y) ∀x, y ∈ H (1.45) kT (x)k = kxk ∀x ∈ H (1.46) In general an operator T with any of the properties (1.44-1.46), is an isometric isomorphism of H into itself, since T preserves linear operations, as well as the inner product and the norm (and thus the metric). For finite- dimensional spaces any of them are necessary and sufficient conditions for T to be unitary. Nevertheless, this is not the case when we treat with infinite-dimensional spaces, let us see an example: consider the operator T in C∞ given by T {x1, x2, ...} = {0, x1, x2, ...} which preserves norms but has no inverse. The point is that this is an isometric isomorphism into H but not onto H (the image does not contain any element of C∞ with a non-null first component). So in the case of infinite dimension, the condition to be onto must be added to the conditions (1.44-1.45) for an operator to be unitary. Theorem 1.41 An operator on H is unitary⇔is an isometric isomorphism of H onto itself.
  • 36.
    36 CAPÍTULO 1.LINEAR OR VECTOR SPACES In words, unitary operators are those one-to-one and onto operators that preserve all structure relevant for a Hilbert space: linear operations, inner products, norm and metric. In practice, unitary operators usually appear in Physics as operations that keep the norm of the vectors unaltered (like rotations in ordinary space), even this is usually the definition utilized in Physics books. There is another theorem useful in the theory of representations for Hilbert spaces which is also used sometimes as the definition Theorem 1.42 An operator T on H is unitary ⇔ T {ei} is a complete orthonormal set whenever {ei} is. Another important characteristic for physical applications is the following Theorem 1.43 The set of all unitary operators on H forms a group 1.13. Projections on Hilbert spaces In Banach spaces we defined projections as idempotent continuous linear transformations or equivalently as idempotent operators. We also saw that a couple of closed subspaces such that B = M ⊕ N induces a projection and viceversa. We saw however that for a given closed subspace M of B there is not necessarily another closed subspace such that B = M ⊕ N. In contrast, theorem 1.16 guarantees that for a given closed subspace M of a Hilbert space H there always exists a decomposition with another closed subspace in the form H = M ⊕ M⊥. Besides, in this decomposition the closed complementary space is precisely the orthogonal complement of M. Since orthogonality is a very important new concept that arises from Hilbert spaces, we shall concentrate on projections induced by this particular decomposition. It is then natural to look for the new features required by a given projection in order to have M as its range and M⊥ as its null space Theorem 1.44 If P is a projection (with the definition given for Banach spaces) on H with range M and null space N then M ⊥ N ⇔ P = P† and in this case N = M⊥. A projection in which its range and null space are perpendicular is called an orthogonal projection. Indeed, orthogonal projections are the only ones that are relevant in the theory of operators on Hilbert spaces, then we shall redefine the concept of projection once again Definition 1.23 A projection on a Hilbert space will be defined as an idempotent, continuous, and self-adjoint linear transformation. If idempotent, continuous, non-self adjoint linear transformations are of some use, we call them non-orthogonal projections. The following facts are easy to show, 0 and I are projections and they are distinct if and only if H 6= {0}. P is the projection on M ⇔ I − P is the projection on M⊥. We can also see that x ∈ M ⇔ Px = x ⇔ kPxk = kxk it can also be seen that P is a positive operator and kPk ≤ 1. Sometimes occur in Physics that a given operator T on H maps a proper subspace M of H into itself. The following chain of definitions permits to study this kind of operators Definition 1.24 Let T be an operator on H, and M a closed vector subspace of H. M is said to be invariant under T if T (M) ⊆ M. In this case the restriction of T to M can be regarded as an operator of M into itself. A more interesting situation occurs when M and M⊥ are invariant under T
  • 37.
    1.14. THEORY OFREPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 37 Definition 1.25 If both M and M⊥ are invariant under T, we say that M reduces T or that T is reduced by M. This situation invites us to study T by restricting its domain to M and M⊥. The projections provide the most relevant information for these scenarios Theorem 1.45 A closed vector subspace M is invariant under an operator T ⇔ M⊥ is invariant under T† Theorem 1.46 A closed vector subspace M reduces an operator T ⇔ M is invariant under both T and T† Theorem 1.47 If P is the projection on a closed vector subspace M of H, M is invariant under an operator T ⇔ TP = PTP Theorem 1.48 If P is the projection on a closed vector subspace M of H, M reduces an operator T ⇔ TP = PT Theorem 1.49 If P and Q are projections on closed linear subspaces M and N then M ⊥ N ⇔ PQ = 0 ⇔ QP = 0 We wonder whether the sum of projections in our present sense is also a projection. This is the case only under certain conditions Theorem 1.50 If P1, .., Pn are projections on closed subspaces M1, .., Mn of a Hilbert space H, then the sum P = P1 +..+Pn is a projection ⇔the P′ i s are pairwise orthogonal i.e. PiPj = δijPi, in that case P is the projection on M = M1 + .. + Mn. 1.14. Basic theory of representations in a general finite dimensional vector space In this section we intend to establish an equivalence between abstract objects such as elements of vector spaces and linear transformations, in a more tangible language suitable for explicit calculations. This is the gist of the theory of representations for vector spaces 1.14.1. Representation of vectors and operators in a given basis If n is the dimension of a finite-dimensional vector space V , a set of n linearly independent vectors in V , forms a basis for the vector space. Given a certain ordered basis {u1, .., un} in a vector space V any vector can be written as a linear combination of such a basis, we shall use the convention of sum over repeated indices x = xiui (1.47) The coefficients xi are called the coordinates of the vector x, relative to the ordered basis {ui}. Linear inde- pendence ensures that the set of coordinates (x1, .., xn) is unique when the basis is ordered in a well-defined way. Therefore, this set of coordinates provides a representation of the vector x with respect to the ordered basis {ui}. A mapping T of V into itself, associates each vector x with another vector y in V y = Tx if the mapping is one-to-one and onto it admits an inverse1 x = T−1 y 1 If the mapping is only one-to-one but not onto, the inverse still exist but restricted to the vector subspace in which all the vectors x ∈ V are mapped.
  • 38.
    38 CAPÍTULO 1.LINEAR OR VECTOR SPACES if the transformation is linear we have T (αx+βy) = αTx + βTy ∀x, y ∈ V where α and β are complex numbers. The definition of T is intrinsic and does not depend on the particular basis chosen for the vector space. Notwithstanding, for many practical purposes we define a representation of both the vectors and operators in a basis {ui}. In that case, we can describe the action of T by a transformation of coordinates (in the same basis) yi = Ti (x1, x2, . . . , xn) i = 1, . . . , n if Ti admits an inverse we get xi = T−1 i (y1, y2, . . . , yn) i = 1, . . . , n the necessary and sufficient condition for the existence of the inverse is that the jacobian J ≡ ∂Ti/∂xj be different from zero. On the other hand, if we assume that T is a linear transformation we can write y = Tx = T (xiui) = xiTui (1.48) Eq. (1.48) says that y is a linear combination of the vectors Tui, and the coefficients of the combination (coordinates) coincide with the coordinates of x in the basis ui. The vectors Tui must be linear combinations of {uj} and we denote the coefficients of these linear combinations as Tji vi ≡ Tui = ujTji (1.49) the real or complex coefficients Tji can be organized in a square arrangement of the form T ≡      T11 T12 · · · T1n T21 T22 · · · T2n . . . . . . · · · . . . Tn1 Tn2 · · · Tnn      this square arrangement symbolized as T is called the matrix representative of the linear transformation T relative to the ordered basis {ui}. Substituting in Eq. (1.48) yjuj = ujTjixi and since the uj are linearly independent yj = Tjixi this operation is represented by the following notation      y1 y2 . . . yn      =      T11 T12 · · · T1n T21 T22 · · · T2n . . . . . . · · · . . . Tn1 Tn2 · · · Tnn           x1 x2 . . . xn           y1 y2 . . . yn      =      T11x1 + T12x2 + .. + T1nxn T21x1 + T22x2 + .. + T2nxn . . . Tn1x1 + Tn2x2 + .. + Tnnxn      and is usually written in the form y = Tx
  • 39.
    1.14. THEORY OFREPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 39 the last equality appears in matrix notation where T is the matrix representative of the linear operator T in the ordered basis ui. Similarly, x and y are the coordinate representatives of the intrinsic vectors in the same ordered basis. Eq. (1.49) shows clearly how to construct the matrix T, i.e. applying the operator to each vector in the basis, and writing the new vectors as linear combinations of the basis. The coefficient of the i − th new vector associated to the j − th element of the basis gives the element Tji in the associated matrix. Observe that for a matrix representative to be possible, the linearity was fundamental in the procedure. On the other hand, since we are looking for an isomorphism among linear transformations on V and the set of matrices (as an algebra), we should define linear operations and product of matrices in such a way that these operations are preserved in the algebra of linear transformations. In other words, if we denote by [T] the matrix representative of T in a given ordered basis we should find operations with matrices such that [T1 + T2] = [T1] + [T2] ; [αT] = α [T] ; [T1T2] = [T1] [T2] we examine first the product by a scalar, according to the definition (1.7) we have (αT) (ui) = α (Tui) = α (ujTji) = uj (αTji) ⇒ (αT) (ui) = uj (αTji) ⇒ (uj) (αT)ji = uj (αTji) using linear independence we obtain the algorithm for scalar multiplication (αT)ji = αTji Now for the sum we use the definition 1.6 (T + U) uj = Tuj + Uuj = uiTij + uiUij = ui (Tij + Uij) ⇒ (T + U) uj = ui (Tij + Uij) ⇒ ui (T + U)ij = ui (Tij + Uij) and along with linear independence it leads to (T + U)ij = (Tij + Uij) Moreover, for multiplication (composition) we use definition 1.9 (TU) ui = T (Uui) = T (ujUji) = UjiT (uj) = Uji (Tuj) = Uji (ukTkj) ⇒ (TU) ui = (TkjUji) uk ⇒ uk (TU)ki = uk (TkjUji) linear independence gives (TU)ki = TkjUji (1.50) It can be easily shown that the matrix representations of the operators 0 and I are unique and equal in any basis, they correspond to [0]ij = 0 and [I]ij = δij. Finally, we can check from Eq. (1.49) that the mapping T → [T] is one-to-one and onto. It completes the proof of the isomorphism between the set of linear transformations and the set of matrices as algebras. On the other hand, owing to the one-to-one correspondence T ↔ [T] and the preservation of all operations, we see that non-singular linear transformations (i.e. invertible linear transformations) should correspond to invertible matrices. We denote T−1 the matrix representative of T−1, and our goal is to establish the algorithm for this inverse matrix, the definition of the inverse of the linear transformation is TT−1 = T−1 T = I since the representation of the identity is always [I]ij = δij, the corresponding matrix representation of this equation is [T]ik T−1 kj = T−1 ik [T]kj = δij (1.51) this equation can be considered as the definition of the inverse of a matrix if it exists. A natural definition is then
  • 40.
    40 CAPÍTULO 1.LINEAR OR VECTOR SPACES Definition 1.26 A matrix which does not admit an inverse is called a singular matrix. Otherwise, we call it a non-singular matrix. Since T−1 is unique, the corresponding matrix is also unique, so the inverse of a matrix is unique when it exists. A necessary and sufficient condition for a matrix to have an inverse is that its determinant must be non-zero. The algebra of matrices of dimension n × n is called the total matrix algebra An, the preceding discussion can be summarized in the following Theorem 1.51 if B = {u1, .., un} is an ordered basis of a vector space V of dimension n, the mapping T → [T] which assigns to every linear transformation on V its matrix relative to B, is an isomorphism of the algebra of the set of all linear transformations on V onto the total matrix algebra An. Theorem 1.52 if B = {u1, .., un} is an ordered basis of a vector space V of dimension n, and T a linear transformation whose matrix relative to B is [aij]. Then T is non-singular ⇔ [aij] is non-singular and in this case [aij]−1 = T−1 . 1.14.2. Change of coordinates of vectors under a change of basis We have already seen that any vector space has an infinite number of bases. Notwithstanding, once a given basis is obtained, any other one can be found by a linear transformation of the original basis. Let {uj} be our “original” ordered basis and n u′ j o any other ordered basis. Each u′ i is a linear combination of the original basis u′ i = aijuj i = 1, . . . , n (1.52) linear independence of {ui} ensures the uniqueness of the coefficients aij. The natural question is whether we require any condition on the matrix representation aij in Eq. (1.52) to ensure that the set n u′ j o be linearly inde- pendent. If we remember that there is a one-to-one correspondence between matrices and linear transformations we see that aij must correspond to a (unique) linear transformation A. In this notation Eq. (1.52) becomes u′ i = Auj (1.53) now appealing to theorem 1.9 we see that n u′ j o is a basis if and only if A is non-singular, but A is non-singular if and only if [A]ij = aij is a non-singular matrix. Thus Eq. (1.53) can be written in matrix notation as u′ = Au (1.54) the new set {u′ i} is a basis if and only if the matrix A is non-singular. Any vector x can be written in both bases x = xiui = x′ iu′ i = x′ iaijuj = x′ jajiui (1.55) and owing to the linear independence of ui xi = x′ jaji = ãijx′ j ; ãij ≡ aji where ãij ≡ aji indicates the transpose of the matrix A. In matrix form we have u′ = Au , x = Ãx ′ (1.56) and using Eq. (1.56) we get x′ = Ã−1 x (1.57)
  • 41.
    1.14. THEORY OFREPRESENTATIONS IN FINITE-DIMENSIONAL VECTOR SPACES 41 observe that if the original basis transform to the new one by a non-singular matrix A (Eq. 1.54), the original coordinates transform to the new ones by the matrix Ã−1 (Eq. 1.57). It is easy to show that Ã−1 = g A−1 then e A is non-singular if and only if A is non-singular. Hence Eq. (1.57) makes sense whenever A is non-singular. Defining the transpose of a column matrix as x̃ = (x1, x2, . . . , xn) Equation (1.55) can be written as x = x̃u = x̃′ u′ which gives a convenient notation for the coordinate-form of vectors in different basis. It is important to emphasize that the vector x has an intrinsic meaning while its coordinates depend on the basis chosen. 1.14.3. Change of the matrix representative of linear transformations under a change of basis Let us define an intrinsic equation for a linear transformation T of V into itself y = Tx (1.58) y and x denote here intrinsic vectors while y, x are their representation in coordinates under a given ordered basis. Starting with the ordered basis {ui} we write equation (1.58) in matrix form y = Tx (1.59) for any other ordered basis {u′ i} the matrix and coordinate representatives are different and we write them as y′ = T′ x′ (1.60) we remark that Eqs. (1.59) and (1.60) represents the same intrinsic Equation (1.58). Since we know the relation between the coordinate representatives given by Eq. (1.57), our goal here is to know the relation between the matrix representatives of T. Using Eq. (1.57) we find y′ = Ã−1 y = Ã −1 Tx = Ã −1 TÃÃ −1 x = Ã−1 TÃ Ã−1 x y′ = T′ x′ (1.61) where we have defined T′ ≡ Ã−1 TÃ (1.62) from Eqs. (1.61, 1.62) we see that T′ is the representative matrix of the operator T in the new basis u′ i where the matrix Ã−1 gives the transformation between coordinates from the old basis to the new one Eq. (1.57). We remember that A must be non-singular to represent a change of basis. Definition 1.27 The transform of a matrix A (also called a similarity transformation) by a non singular matrix S, is defined as A′ = SAS−1 . The matrices A′ and A are said to be equivalent. Eq. (1.62) shows that the new matrix representation of T (i.e. T′), is equivalent2 to the old matrix represen- tation T, and the transform of T by Ã−1 is T′. 2 Similarity transformations provides an equivalence relation between two matrices. Thus, the expression equivalent matrices becomes logical. In addition, we see that T and T′ describe the same mathematical object (though in different bases), so that the term equivalence acquires more sense in this context.
  • 42.
    42 CAPÍTULO 1.LINEAR OR VECTOR SPACES We can also consider a transformation S from a vector space V into another V ′ x′ = Sx, x = S−1 x′ For S−1 to be linear, it is necessary that V and V ′ be of the same dimensionality. If a linear operator T is defined in V , then T and S induce a linear operator in V ′ in the following way let map x′ of V ′ into y′ of V ′ in the following way x′ → x = S−1 x′ → y = Tx = T S−1 x′ → y′ = Sy = S T S−1 x′ hence the mapping x′ → y′ has been performed as x′ → y′ = STS−1 x′ or course, we can define a mapping T′ of V ′ into itself that makes the work in a single step, thus T′ ≡ STS−1 ; y′ = T′ x′ (1.63) The transformation given by (1.63) is also a similarity transformation. Although the transformations shown in (1.62) and (1.63) resembles, they have fundamental differences. In (1.62) we are representing the same mathemati- cal object by taking different bases, and is a matrix equation. By contrast, Eq. (1.63) expresses a relation between two different mathematical transformations acting on different spaces3, and the equation is intrinsic, independent of the basis. 1.15. Active and passive transformations In Physics, it is important to differentiate between two types of transformations, the passive ones and the active ones. We can understand passive transformations by examining the transformations y → y′, x → x′ and T → T′ to go from Eq. (1.59) to Eq. (1.60), if we remember that both are representatives of the same intrinsic equation (1.58) we realize that the mappings described above do not change the vectors or the transformation but only their representatives. These mappings (called passive mappings) thus correspond to a change in the basis and not to a change on the mathematical objects by themselves. In contrast, an active mapping or transformation transforms a mathematical object into another one. For instance, in the first of Eqs. (1.63) we map a linear transformation on V into a different linear transformation on V ′, the mathematical object itself has changed. Similarly the mapping x′ → y′ through T′ described by the second of Eqs. (1.63) is an active transformation because x′ and y′ are two different vectors. The difference between a passive and active mappings or transformations should be clear from the context. For instance Eqs. (1.62) and (1.63) are identical in form from the algebraic point of view, but (1.62) represents a passive transformation (a change of basis or a change of representation), while (1.63) represents an active one. 1.16. Theory of representations on finite dimensional Hilbert spaces We shall study n−dimensional Hilbert spaces. We remember that an inner product is a mapping that takes an ordered pair of vectors x, y in a vector space V, and associates to it a scalar α denoted by α = (x, y) such that (x, y) = (y, x)∗ ; (x, βy) = β (x, y) ; (x1 + x2, y) = (x1, y) + (x2, y) (x, x) ≥ 0, and (x, x) = 0 ⇔ x = 0 3 It could be argued that both spaces are identical since they have the same dimensionality. This is true only for their properties as general vector spaces, but not necessarily for any additional algebraic or topological structure on them.
  • 43.
    1.16. THEORY OFREPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 43 the definition of the inner product is intrinsic (basis independent). The norm of a vector is defined as kxk2 ≡ (x, x). This in turn allows us to normalized the vectors, i.e. construct vectors with norm or “length” equal to one by the rule ui = xi p (x, x) = xi kxik (1.64) such that (ui, ui) = 1. Different inner products defined into the same vector space, lead to different Hilbert spaces. Another important concept that arises from the inner product is that of orthogonality. An orthonormal set is a set {xi} with xi ∈ H such that (xi, xj) = δij The theory of representations of a finite dimensional Hilbert space is particularly simple if we realize that in finite dimension, the Fourier expansion given by Eq. (1.27) becomes a linear combination, the series in (1.28) to calculate the norm becomes a finite sum, and finally complete orthonormal sets become bases. These are the main ideas that lead to the theory of representations in a Hilbert space Our first goal is to find the way in which the coordinates of a given vector are obtained from the inner product. We first see the form of the coordinates when the basis consists of a complete orthonormal basis. Rewriting the Fourier expansion (1.27) in finite dimension and using sum over repeated indices we have x = (ui, x) ui = xiui so the coordinate of a vector x associated with the normal vector ui is given by xi = (ui, x) Let us now see how an arbitrary inner product can be calculated using an orthonormal basis (x, y) = (xiui, yjuj) = x∗ i yj (ui, uj) = x∗ i yjδij = x∗ i yi (1.65) the norm of a vector is also easily seen as kxk2 = (x, x) = x∗ i xi = |xi| |xi| (1.66) if the basis {vi} is not an orthonormal set, we can express the scalar product by determining the numbers mij ≡ (vi, vj) (1.67) the properties of the inner product lead to mij = m∗ ji. This numbers form a matrix that we shall call the metric matrix. Defining (Aij)† ≡ A∗ ji (the adjoint or hermitian conjugate of the matrix A) we find that m = m†, from the definition of the adjoint matrix we see that (AB)† = B†A†. A matrix that coincides with its adjoint is called self-adjoint or hermitian. The metric matrix is hermitian. We shall see now that knowing the metric matrix in a certain basis, we can find any possible inner product (x, y) = (xivi, yjvj) = x∗ i yj (vi, vj) = x∗ i mijyj (x, y) = x† my and the norm becomes (x, x) = x∗ i mijxj = x† mx (1.68) representing x as a one column matrix, x† is a one row matrix with the coordinates conjugated. The quantities of the form x†Ay, with A hermitian, are called hermitian forms. If additionally we impose that x†Ax ≥ 0, we have a positive definite hermitian form4. 4 An inner product guarantees that the hermitian form constructed with the metric matrix are positive-definite. However, it is usual in relativity to define a pseudo-metric that leads to non positive definite hermitian forms. Observe that the metric tensor in relativity has some negative diagonal elements which would be forbidden if they arose from an authentic inner product.
  • 44.
    44 CAPÍTULO 1.LINEAR OR VECTOR SPACES Gram-Schmidt process for orthonormalization of linearly independent sets From the previous discussion, it is very clear that complete orthonormal sets posses many advantages with respect to other sets of linearly independent vectors. It leads us to study the possibility of finding an orthonormal set from a given set of linearly independent vectors in a Hilbert space. The so-called Gram-Schmidt orthonormalization process starts from an arbitrary set of independent vectors {x1, x2, .., xn, ...} on H and exhibits a recipe to construct a corresponding orthonormal set {u1, u2, .., un, ...} with the property that for each n the vector subspace spanned by {u1, u2, .., un} is the same as the one spanned by {x1, x2, .., xn}. The gist of the procedure is based on Eqs. (1.24, 1.64). We start by normalizing the vector x1 u1 = x1 kx1k now we substract from x2 its component along u1 to obtain x2 − (u1, x2) u1 and normalized it u2 = x2 − (u1, x2) u1 kx2 − (u1, x2) u1k it should be emphasized that x2 is not a scalar multiple of x1 so that the denominator above is non-zero. It is clear that u2 is a linear combination of x1, x2 and that x2 is a linear combination of u1, u2. Therefore, {u1, u2} spans the same subspace as {x1, x2}. The next step is to substract from x3 its components in the directions u1 and u2 to get a vector orthogonal to u1 and u2 according with Eq. (1.24). Then we normalize the result and find u3 = x3 − (u1, x3) u1 − (u2, x3) u2 kx3 − (u1, x3) u1 − (u2, x3) u2k once again {u1, u2, u3} spans the same subspace as {x1, x2, x3}. Continuing this way we clearly obtain an ortho- normal set {u1, u2, .., un, ...} with the stated properties. Many important orthonormal sets arise from sequences of simple functions over which we apply the Gram- Schmidt process In the space L2 of square integrable functions associated with the interval [−1, 1], the functions xn (n = 0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the orthonormal set of the Legendre Polynomials. In the space L2 of square integrable functions associated with the entire real line, the functions xne−x2/2 (n = 0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the normalized Hermite functions. In the space L2 associated with the interval [0, +∞), the functions xne−x (n = 0, 1, 2, ..) are linearly indepen- dent. Orthonormalizing it we obtain the normalized Laguerre functions. Each of these orthonormal sets described above can be shown to be complete in their corresponding Hilbert spaces. 1.16.1. Linear operators in finite dimensional Hilbert spaces First of all let us see how to construct the matrix representation of a linear operator by making profit of the inner product. Eq. (1.49) shows us how to construct the matrix representation of T in a given basis by applying the operator to each element ui of such a basis Tui = ujTji ⇒ (uk, Tui) = (uk, ujTji) ⇒ (uk, Tui) = Tjimkj if the basis is orthonormal then mkj = δkj and Tki = (uk, Tui) (1.69)
  • 45.
    1.16. THEORY OFREPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 45 Eq. (1.69) gives the way to construct an element of the matrix representative of an operator T on H through the inner product and using an orthonormal basis. Now we turn to the problem of finding a relation between the matrix representative of an operator and the matrix representative of its adjoint. If we have a linear operator T on a Hilbert space, another operator called its adjoint and denoted as T† exists such that (Tx, y) = x, T† y ∀x, y ∈ V the matrix representative of T† has a rather simple relation with the matrix representative of T when an ortho- normal basis is used (T (xiui) , ykuk) = (xiT (ui) , ykuk) = x∗ i yk (Tui, uk) and using (1.49) we find x∗ i yk (ujTji, uk) = x∗ i ykT∗ jiδjk = x∗ i ykT∗ ki = x∗ i e T∗ ikyk on the other hand we have x, T† y = x∗ i T† ik yk and taking into account that x and y are arbitrary, we have T† ik = e T∗ ik ⇒ T† = e T∗ (1.70) and so the matrix representative of T† is the conjugate transposed of the matrix representative of T. Once again, it is important to emphasize that it is only valid in an orthonormal basis, it can easily be proved that for an arbitrary basis described by the metric matrix m, the matrix representation of T† is m−1 e T∗m. Remembering that an operator is hermitian or self-adjoint if it coincides with its adjoint operator (T = T†) i.e. (Tx, y) = (x, Ty) , ∀x, y ∈ V, we conclude that in an orthonormal basis, hermitian operators are represented by hermitian matrices. In particular, the form to calculate the norm described in (1.66), is usually taken for granted and it is easy to forget that it only applies in orthonormal bases as we can see from (1.68). This is because the coordinates of a vector with respect to {vi} are not given by Fourier coefficients of the form described in Eq. (1.27) Now assume that we go from an orthonormal basis ui into another orthonormal basis u′ i. We know from theorem 1.42 that a linear operator is unitary if and only if it transforms a complete orthonormal set into another complete orthonormal set, then if A is a unitary operator we have δij = (Aui, Auj) = u′ i, u′ j = (ukaki, umamj) = a∗ kiamj (uk, um) = a∗ kiamjδkm δij = a∗ kiakj = e a∗ ikakj so the matrix of transformation from ui into u′ i accomplishes A† A = 1 now, if we demand for the matrix to be non-singular it must have a unique inverse such that A† A = AA† = 1 therefore a matrix that transform an orthonormal basis into another orthonormal basis must satisfy A† = A−1 by theorem 1.51 these matrices are associated with unitary operators as long as we use an orthonormal basis, thus it is natural to call them unitary matrices.
  • 46.
    46 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.17. Determinants and traces A very important property of any matrix is its determinant denoted by |A| and is a real or complex number associated with the matrix. Its construction was primarily motivated by the study of simultaneous linear equations. We assume that the reader is familiarized with the concept and the calculation of this quantity. We have mentioned that a matrix admits an inverse if and only if its determinant is non-null. This is because the inverse of a matrix A depends on |A|−1 . The determinant of the transpose coincides with the determinant of the matrix
  • 49.
  • 52.
    = |A| (1.71) afor the conjugate matrix (in which we conjugate each of its elements) we get |A∗ | = |A|∗ (1.72) Additionally it can be demostrated that the determinant of the product is the product of the determinants |AB| = |A| · |B| (1.73) and since the determinant of the identity is 1 we get 1 = |1| =
  • 54.
  • 56.
  • 58.
  • 60.
  • 62.
  • 64.
    = |A|−1 (1.74) if anyrow or column is multiplied by a scalar α, the determinant is also multiplied by the scalar. For example in three dimensions
  • 70.
      α a11 αa12 α a13 a21 a22 a23 a31 a32 a33  
  • 76.
  • 82.
      a11 α a12a13 a21 α a22 a23 a31 α a32 a33  
  • 88.
  • 94.
      a11 a12 a13 a21a22 a23 a31 a32 a33  
  • 100.
    (1.75) so that ifwe multiply an n × n matrix by a scalar, the determinant is |αA| = αn |A| (1.76) in particular |−A| = (−1)n |A| (1.77) another important property is the trace of the matrix defined as the sum of its diagonal elements TrA = aii (1.78) we emphasize the sum over repeated indices. We prove that Tr [AB] = Tr [BA] (1.79) in this way Tr [AB] = (AB)ii = aikbki = bkiaik = (BA)kk = Tr [BA] it is important to see that the trace is cyclic invariant, i.e. Tr h A(1) A(2) . . . A(n−2) A(n−1) A(n) i = Tr h A(n) A(1) A(2) . . . A(n−2) A(n−1) i = Tr h A(n−1) A(n) A(1) A(2) . . . A(n−2) i (1.80)
  • 101.
    1.18. RECTANGULAR MATRICES47 and so on. To prove it, we define B ≡ A(1) A(2) . . . A(n−1) so that Tr h A(1) A(2) . . . A(n−2) A(n−1) A(n) i = Tr h BA(n) i = Tr h A(n) B i = Tr h A(n) A(1) A(2) . . . A(n−2) A(n−1) i and taking into account that the indices (1) , (2) , ... are dummy, any cyclic change is posible. It worths saying that property (1.79) does not mean that the matrices can be commuted to calculate the trace, for instance for three or more matrices the trace is not the same for any order of the matrices, only cyclic changes are possible. In that sense, we should interpret (1.79) as a cyclic change and not as a commutation. But the most important properties of the traces and determinants is that they are invariant under a similarity transformation
  • 103.
  • 105.
  • 107.
  • 109.
    = |B| ·|A| ·
  • 111.
  • 113.
    = |B| ·|A| · |B|−1 ⇒
  • 115.
  • 117.
    = |A| where wehave used (1.73) and (1.74). Now for the invariance of the trace TrA′ = Tr BAB−1 = n X i=1 BAB−1 ii = X ikl bikaklb̄li = X ikl b̄libikakl = X kl δklakl = X k akk = TrA alternatively we can see it by using the cyclic invariance of the trace (see Eq. 1.80), such that Tr A′ = Tr BAB−1 = Tr B−1 BA = TrA the invariance of determinants and traces under similarity transformations are facts of major importance because all representations of a given linear transformation are related each other by similarity transformations. It means that determinants and traces are intrinsic quantities that can be attributed to the linear transformations thus Definition 1.28 We define the trace and the determinant of a given linear transformation of V into itself by calculating the trace and determinant of the matrix representative of the linear transformation in any basis. 1.18. Rectangular matrices A rectangular matrix is an arrangement of numbers consisting of m rows and n columns. In that case we say that the matrix has dimensions m × n. The elements of such a matrix will be of the form (A)ik = aik ; i = 1, . . . , m ; k = 1, . . . , n the transpose of this matrix would have dimensions n × m. A column vector arrangement (from now on, we shall call it simply a “vector”, though it is not neccesarily a vector in all the sense of the word) is a rectangular matrix of dimension m × 1, its transpose (a row “vector”) is a rectangular matrix of dimensions 1 × m. Now, it would be desirable to extrapolate the algorithm of square matrices composition to calculate products of rectangular matrices cij ≡ aikbkj It is observed that this extrapolation of the matrix product to the case of rectangular matrices C = AB, can be defined consistently only if the number of columns of A coincides with the number of rows of B. AB = C if A ≡ Am×n and B ≡ Bn×d ⇒ Cm×d
  • 118.
    48 CAPÍTULO 1.LINEAR OR VECTOR SPACES In particular, the product of a column vector (m × 1 matrix) with a m × m matrix in the form xA cannot be defined. Nevertheless, the product of the transpose of the vector (row vector) and the matrix A in the form e xA can be defined. In a similar fashion, the product Ae x cannot be defined but Ax can. From these considerations the quantities Ax and e xA correspond to a new column vector and a new row vector respectively. From the dimensions of the rectangular matrices we see that Am×n ⇒ e An×m and Bn×d ⇒ e Bd×n and the product AB is defined. However, their transposes can only be multiplied in the opposite order, i.e. in the order e B e A. Indeed, it is easy to prove that, as in the case of square matrices, the transpose of a product is the product of the transpose of each matrix in the product, but with the product in the opposite order. Applying this property it can be seen that ] (Ax) = e x e A ; ] (e xA) = e Ax where we have taken into account that the transpose of the transpose is the original matrix. 1.19. The eigenvalue problem If T is a linear transformation on a vector space of finite dimension n, the simplest thing that the linear transformation can do to a vector is to produce a “dilatation” or “contraction” on it, eventually changing the “sense” of the “arrow” but keeping its “direction”. In algebraic words, certain vectors can be transformed by T into a scalar multiple of itself. If x is a vector in H this operation is given by Tx = λx (1.81) a non-zero vector x such that Eq. (1.81) holds, is called an eigenvector of T, and the corresponding scalar λ is called an eigenvalue of T. Each eigenvalue has one or more eigenvectors associated with it and to each eigenvector corresponds a unique eigenvalue. Let us assume for a moment that the set of eigenvalues for a given T is non-empty. For a given λ consider the set M of all its eigenvectors together with the vector 0 (which is not an eigenvector), we denote this vectors as x (λ) i . M is a linear subspace of H, we see it by taking an arbitrary linear combination of vectors in M T αix (λ) i = αiT x (λ) i = αiλx (λ) i = λ αix (λ) i ⇒ T αix (λ) i = λ αix (λ) i such that a linear combination is also an eigenvector with the same eigenvalue. Indeed, for Hilbert spaces it can be shown that M is a closed vector subspace of H. As any vector space, M has many basis and if H is finite dimensional, complete orthonormal sets are basis. The dimension of M is thus the maximum number of linearly independent eigenvectors associated with λ. M is called the vector eigenspace generated by the eigenvalue λ. This discussion induces the following Definition 1.29 A given eigenvalue λ in Eq. (1.81) is called n−fold degenerate if n is the dimension of the eigenspace M of H generated by λ. In other words, n is the maximum number of linearly independent eigenvectors of λ. If n = 1 we say that λ is non-degenerate. Even for non-degenerate eigenvalues we always have an infinite number of eigenvectors, for if x(λ) is an eigen- vector, then αx(λ) is also an eigenvector for any scalar α. Eq. (1.81) can be written equivalently as (T − λI) x = 0 (1.82)
  • 119.
    1.19. THE EIGENVALUEPROBLEM 49 we return to the problem of the existence of eigenvalues, the operator T on C∞ given by T {x1, x2, ...} = {0, x1, x2, ...} is an operator on a Hilbert space that has no eigenvalues. We confront then the problem of characterizing the type of operators that admit eigenvalues. In the finite dimensional case, we shall see that the theory of representations and the fundamental theorem of algebra ensures the existence of eigenvalues for an arbitrary operator. 1.19.1. Matrix representative of the eigenvalue problem The one to one correspondence between matrices and operators in the finite dimensional case permits to make a matrix representation of the eigenvalue equation (1.81). Let T be the n × n matrix associated with the operator T and x the column vector representative of x (an n × 1 matrix). Eq. (1.81) is written as Tx = λx (1.83) which is the eigenvalue equation associated with the matrix. The idea is trying to solve for the eigenvalues and eigenvectors in a given representation. The values λ are in general complex. According with our previous discussion the eigenvalue is the “dilatation”or “contraction” factor, if it is a negative real number it “inverts the sense of the arrow”. Let us rewrite the eigenvalue equation as (T − λ1) x = 0 (1.84) for simplicity we shall use n = 3 but the arguments are valid for arbitrary finite dimensions. In three dimensions the explicit form of (1.84) becomes (T11 − λ) X1 + T12X2 + T13X3 = 0 T21X1 + (T22 − λ) X2 + T23X3 = 0 T31X1 + T32X2 + (T33 − λ) X3 = 0 (1.85) This set of homogeneous equations for X1, X2, X3 has non trivial solution only if the determinant of the system is null, therefore |T − λ1| =
  • 125.
    T11 − λT12 T13 T21 T22 − λ T23 T31 T32 T33 − λ
  • 131.
    = 0 (1.86) thiscondition is known as the secular or characteristic equation of the matrix. The variables to be found are the eigenvalues λ associated with the matrix. It worths saying that even if non-trivial solutions exist, the set of homogeneous equations (1.85) do not give us definite values for all the components of the eigenvectors but only for the quotient among these components. This can be understood either from algebraic or geometric arguments. From the algebraic point of view, it is related with the fact that the product of the eigenvector x with any scalar is also an eigenvector, this can be seen inmediately from (1.84)5. Geometrically, this implies that only the “direction” of the eigenvector is determined but not its “length” neither its “sense”. This is particularly apparent in three dimensions. Since T represents a linear transformation, it is clear that if T preserves the direction of x i.e. Tx = λx it also preserves the “direction” of the vector αx for α arbitrary. When the determinant (1.86) is expanded, we observe that the solution of the secular equation reduces to finding the roots of a polynomial of n degree. Appealing to the fundamental theorem of algebra we always have exactly n complex roots, some of them could be repeated so that we could have fewer than n distinct roots. In 5 Alternatively, this can be seen form the fact that the secular equation only has non-trivial solution when one or more of the equations is linearly dependent with the others. In such a case there are more variables than equations and hence an infinite number of solutions.
  • 132.
    50 CAPÍTULO 1.LINEAR OR VECTOR SPACES general we can construct no more than n linearly independent vectors xk each one associated with an eigenvalue λk. By now, the set of eigenvalues are associated to a matrix, but in order to associate it to its corresponding operator, we should be sure that the set of eigenvalues is the same for any representation of the operator i.e. that all equivalent matrices have the same set of eigenvalues Theorem 1.53 If two n × n matrices are equivalent i.e. T′ = STS−1 then both have the same set of eigenvalues. In summary, the fundamental theorem of Algebra together with the intrinsic meaning of the set of eigenvalues, solves the problem of the existence of eigenvalues for linear transformations on finite-dimensional vector spaces. Definition 1.30 The set of eigenvalues of T is called its spectrum and is denoted by σ (T). Theorem 1.54 If T is an arbitrary linear transformation on a finite dimensional complex vector space, the spectrum of T constitute a non-empty finite subset of the complex plane. The number of elements in this subset does not exceed the dimension n of the space. Some other important theorems related with the set of eigenvalues are the following Theorem 1.55 T is singular ⇔ 0 ∈ σ (T). Theorem 1.56 If T is non-singular, then λ ∈ σ (T) ⇔ λ−1 ∈ σ T−1 More information about the spectral resolution of some types of operators in a Hilbert space will be given by means of the spectral theorem. By now, we turn to the problem of the sets of eigenvectors and its relation with the canonical problem of matrices. 1.19.2. Eigenvectors and the canonical problem of matrices Since we can have many representations of a given operator by changing basis, many matrix representatives can be constructed. It is natural to wonder whether it is posible to choose the basis in such a way that the matrix representative is as simple as possible. In practice, the simplest matrices are diagonal matrices i.e. matrices for which Tij = 0 for i 6= j. Thus, we are looking for a basis under which the matrix representative of a given operator T is diagonal. Starting with a given basis {ui} we obtain a matrix representative of T (denoted by T), we wonder whether there exists another basis {u′ i} for which the matrix representative T′ of T is diagonal. From Eqs. (1.54, 1.62) we see that T and T′ are related by a similarity transformation that also gives us the transformation among the bases u′ = Au ; T′ = e A−1 T e A (1.87) We shall see that for finite dimensional matrices, the canonical problem of matrices is intimately related with the structure of its eigenvectors. Let us consider the representation Xk of the eigenvectors of T with respect to the original basis {ui}. We denote the i−th coordinate of the k−th eigenvector in the form Xik (with respect to the original basis). We are able to settle an square arrangement with this eigenvectors, putting them aside as column vectors. In three dimensions, such an arrangement has the form X ≡ (X1 X2 X3) =   X11 X12 X13 X21 X22 X23 X31 X32 X33   (1.88) Eqs. (1.84) are written for each eigenvalue λk and its corresponding eigenvector Xk in the form (T − λk1) Xk = 0 ⇒ TXk = λkXk no sum over k (1.89)
  • 133.
    1.20. NORMAL OPERATORSAND THE SPECTRAL THEOREM 51 writing Eqs. (1.89) in components with respect to the basis {ui} we get (for n dimensions) n X j=1 TijXjk = λkXik ⇒ n X j=1 TijXjk = n X j=1 Xijδjkλk (1.90) in the two previous equations there is no sum over the repeated index k. The Xjk element is the j−th component of the Xk vector. Now, the quantity δjkλk can be associated with a diagonal matrix, in three dimensions this matrix is written as λ ≡   λ1 0 0 0 λ2 0 0 0 λ3   (1.91) in matrix form Eq. (1.90) reads TX = Xλ multiplying on left by X−1 we find X−1 TX = λ (1.92) it corresponds to a similarity transformation acting on T. Note that the matrix X built from the eigenvectors is the transformation matrix (comparing with 1.87 we have X ≡ e A). We see then that matrix T is diagonalized by X by means of a similarity transformation and the elements of the diagonal correspond to the eigenvalues (λk associated with the column vector Xk of the matrix X in Eq. 1.88). When there are some degenerate eigenvalues i.e. some of them acquire the same value, it is not always possible to diagonalize the matrix T. It is because in that case, the eigenvectors that form the matrix X are not necessarily linearly independent. If any given column vector of the matrix is linearly dependent with the others, the determinant of X is zero and X−1 does not exist. On the other hand, when diagonalization is possible, the determinant and the trace of T can be calculated taking into account that such quantities are invariant under a similarity transformation, therefore det T = det X−1 TX = det λ = λ1λ2 . . . λn (1.93) TrT = Tr X−1 TX = Trλ = λ1 + λ2 + . . . + λn (1.94) so that the determinant and the trace of a diagonalizable matrix are simply the product and sum of its eigenvalues respectively. In summary, a canonical form of a given matrix can be obtained as long as the eigenvectors of the matrix form a basis, the question is now open for the conditions for the eigenvectors to form a basis, and this is part of the program of the spectral theorem. 1.20. Normal operators and the spectral theorem Let T be an operator on a finite-dimensional Hilbert space H. By theorem 1.54 the spectrum σ (T) is a non- empty finite set of complex numbers with cardinality less than or equal to the dimension n of H. Let λ1, .., λm be the set of distinct eigenvalues; let M1, .., Ṁm be their corresponding eigenspaces; and let P1, .., Pm be the projections on these eigenspaces. The spectral theorem is the assertion that the following three statements are equivalent to one another I) The M′ is are pairwise orthogonal and H = M1 ⊕ ...⊕.Mm II) The P′ i s are pairwise orthogonal, I = Pm i=1 Pi, and T = Pm i=1 λiPi. III) T is normal.
  • 134.
    52 CAPÍTULO 1.LINEAR OR VECTOR SPACES The assertion I) means that any vector x ∈ H can be expressed uniquely in the form x = x1 + .. + xm ; xi ∈ Mi ; (xi, xj) = 0 for i 6= j (1.95) applying T on both sides and using linearity Tx = Tx1 + .. + Txm = λ1x1 + .. + λmxm (1.96) this shows the action of T on each element of H in an apparent pattern from the geometrical point of view. It is convenient to write it in terms of projections on each Mi. Taking into account that Mj ⊆ M⊥ i for each i and for every j 6= i we obtain from Eq. (1.95) that Pix = xi from which it follows Ix = x = x1 + .. + xm = P1x + .. + Pmx Ix = (P1 + .. + Pm) x ; ∀x ∈ H therefore I = m X i=1 Pi (1.97) and relation (1.96) gives Tx = λ1x1 + .. + λmxm = λ1P1x + .. + λmPmx Tx = (λ1P1 + .. + λmPm) x ; ∀x ∈ H hence T = m X i=1 λiPi (1.98) Eq. (1.98) is called the spectral resolution of the operator T. In this resolution it is to be understood that all the λ′ is are distinct and that the P′ i s are non-zero projections which are pairwise orthogonal and satisfy condition (1.97). It can be shown that the spectral resolution is unique when it exists. Now, we look for the conditions that the operator must satisfies to be decomposed as Eq. (1.98). From Eq. (1.98) we see that T† = λ∗ 1P1 + . . . + λ∗ mPm (1.99) and multiplying (1.98) with (1.99) and using the fact that the P′ i s are pairwise orthogonal we have TT† = m X i=1 λiPi ! m X k=1 λ∗ kPk ! = m X i=1 m X k=1 λiλ∗ kPiPk = m X i=1 m X k=1 λiλ∗ kP2 i δik TT† = m X k=1 |λk|2 Pk (1.100) and multiplying in the opposite order we obtain the same result T† T = m X k=1 |λk|2 Pk (1.101) from which we see that h T, T† i = 0 and the operator must be normal. We have proved that I)→II)→III). To complete the proof we should show that III)→I) i.e. that every normal operator T on H satisfies conditions I). This task is accomplished by the following chain of theorems
  • 135.
    1.20. NORMAL OPERATORSAND THE SPECTRAL THEOREM 53 Theorem 1.57 If T is normal, x is an eigenvector of T with eigenvalue λ ⇔ x is an eigenvector of T† with eigenvalue λ∗. Theorem 1.58 If T is normal the M′ i s are pairwise orthogonal Theorem 1.59 If T is normal, each Mi reduces T. Theorem 1.60 If T is normal, the M′ i s span H. For most of applications theorem 1.58 is rewritten as Theorem 1.61 If T is normal, two eigenvectors of T corresponding to different eigenvalues are orthogonal. In particular this is valid for self-adjoint and unitary operators. Assume that T = T†, since for a given eigenvector x there is a unique eigenvalue λ we see from theorem 1.57 that λ = λ∗ so the corresponding eigenvalues are real. Now assume for a normal operator T that σ (T) is a subset of the real line, using the spectral resolution of T† Eq. (1.99) we find T† = λ∗ 1P1 + . . . + λ∗ mPm = λ1P1 + . . . + λmPm = T we have the following Theorem 1.62 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues {λ1, .., λm}, then T is self-adjoint ⇔each λi is real. It is important to emphasize that the hypothesis of real eigenvalues leads to the self-adjointness of the operator only if normality is part of the hypothesis (because of the use of the spectral thoerem). It does not discard the possibility of having non-normal operators with real spectrum, in that case such operators would not be self- adjoint. In addition, it worths remembering that self-adjoint operators where constructed as the analogous of “the real line subset” in the algebra of operators. So the fact that its eigenvalues are all real is a quite expected result. An special type of self-adjoint operators are the positive operators for which (x, Tx) ≥ 0 ∀x ∈ H (1.102) applying the spectral resolution of T on xi ∈ Mi with xi 6= 0, we have Txi = m X k=1 λkPkxi = m X k=1 λkxiδik = λixi and using it in Eq. (1.102) we find (xi, Txi) = (xi, λixi) = λi (xi, xi) ≥ 0 no sum over i λi kxik2 ≥ 0 ⇒ λi ≥ 0 on the other hand, by assuming that a normal operator T has a real non-negative spectrum we obtain (x, Tx) = x, n X i=1 λiPix ! = n X k=1 xk, n X i=1 λixi ! = n X k=1 n X i=1 λi (xk, xi) = n X k=1 n X i=1 λiδki kxkk2 (x, Tx) = n X k=1 λk kxkk2 ≥ 0 we see then that
  • 136.
    54 CAPÍTULO 1.LINEAR OR VECTOR SPACES Theorem 1.63 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues {λ1, .., λm}, then T is positive ⇔ λi ≥ 0. Now, for a normal operator T, a necessary and sufficient condition for T to be unitary is that T†T = I (in finite dimension it is not necessary to show that TT† = I) using Eqs. (1.97, 1.100) the condition for unitarity is T† T = I ⇒ m X k=1 |λk|2 Pk = I ⇒ m X k=1 |λk|2 Pk = m X k=1 Pk multiplying by Pi and using the pairwise orthogonality of projectors m X k=1 |λk|2 PkPi = m X k=1 PkPi ⇒ |λi|2 P2 i = P2 i ⇒ |λi|2 Pi = Pi so that |λi| = 1. This procedure also shows that if T is a normal operator in which |λi| = 1 for each i, then TT† = I and T is unitary, then we have Theorem 1.64 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues {λ1, .., λm}, then T is unitary ⇔ |λi| = 1 for each i. Now, remembering that unitary operators where constructed as the analogous of “the unitary circle subset” in the algebra of operators, the fact that its eigenvalues lie in the unitary circle of the complex plane is pretty natural. Now we are prepared to discuss the canonical problem for normal matrices. We denote ni the dimension of each eigenspace Mi it is clear that n1 + n2 + ... + nm = n Mi contains ni linearly independent vectors xi 1, .., xi ni that can be orthonormalized by a Gram Schmidt process to say ui 1, .., ui ni . If we do this for each Mi the set form by the union of these orthonormal sets {u} ≡ ∪m i=1 ui 1, .., ui ni is clearly an orthonormal set because all vectors corresponding with different M′ is are orthogonal according to theorem 1.58. In addition, since the M′ i s span H according to theorem 1.60 this orthonormal set is complete and hence a basis. Therefore, for any normal operator T of H we can always form an orthonormal complete set of eigenvectors. If we use this orthonormal complete eigenvectors to form the matrix of diagonalization Eq. (1.88) we see that the matrix obtained is a unitary matrix, it is clear that for this matrices the inverse always exists since λi 6= 0 for each i and therefore the diagonalization can be carried out. Then we have the following Theorem 1.65 The diagonalization of a normal matrix T can be performed by a similarity transformation of the form T′ = UTU−1 where U is a unitary matrix. This is of particular interest because it means that given a matrix representative of T in a basis consisting of a complete orthonormal set, there exists another complete orthonormal set for which the matrix representative
  • 137.
    1.20. NORMAL OPERATORSAND THE SPECTRAL THEOREM 55 acquires its canonical form. Further, it is easy to see that the canonical form of a normal matrix is given by                     λ1 ... λ1 λ2 ... λ2 ... λm ... λm                     where the elements out of the diagonal are zero and each λi is repeated ni times (λi is ni−fold degenerate). It is easily seen that the matrix representation of Pi in this orthonormal basis is P1 = 1n1×n1 0 0 0 ; P2 =   0n1×n1 0 0 0 1n2×n2 0 0 0 0   ; Pm = 0 0 0 1nm×nm and the matrix representation of the spectral decomposition becomes clear. 1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces The rigorous discussion of the infinite dimensional case for the spectral theorem is out of the scope of this survey. We shall only speak qualitatively about the difficulties that arises when we go to infinite dimension. For simplicity we assume that A is a self-adjoint operator, the spectral resolution is given by A = m X i=1 λiPi since the eigenvalues are real we can order them in a natural way in the form λ1 λ2 .. λm and we use the P′ i s to define new projections Pλ0 = 0 Pλ1 = P1 Pλ2 = P1 + P2 .... Pλm = P1 + ... + Pm = I the spectral decomposition of the self-adjoint operator A can be written as A = λ1P1 + λ2P2 + ... + λmPm = λ1 (Pλ1 − Pλ0 ) + λ2 (Pλ2 − Pλ1 ) + ... + λm Pλm − Pλm−1 A = m X i=1 λi Pλi − Pλi−1 if we define ∆Pλi ≡ Pλi − Pλi−1
  • 138.
    56 CAPÍTULO 1.LINEAR OR VECTOR SPACES we can rewrite the decomposition of A as A = m X i=1 λi∆Pλi which suggest an integral representation A = Z λ dPλ (1.103) in this form, the spectral decomposition of a self-adjoint operator is valid for infinite dimensional Hilbert spaces. For normal operators we have a similar pattern N = Z λ dPλ (1.104) The first problem to carry out this generalization is that an operator on H need not have eigenvalues at all. In this general case the spectrum of T is defined as σ (T) = {λ : T − λI is singular} when H is finite dimensional, σ (T) consists entirely of eigenvalues. In the infinite dimensional case we only can say that σ (T) is non-empty, closed and bounded. Once this difficulty is overcome we should give a precise meaning to the integrals (1.103, 1.104) and prove the validity of those relations. We shall see later that an extension of the spectral theorem in its present form to infinite dimensions is obtained by using the concept of observable. It worths emphasizing that the existence of eigenvalues in the finite dimensional case came from the fundamen- tal theorem of algebra, which in turn came from the fact that the characteristic equation of a finite dimensional matrix is a polynomial equation. An extension to infinite dimension clearly does not lead to a polynomial equation. 1.21. The concept of “hyperbasis” Suppose that the vector space that concerns us is V , which is a proper subspace of a bigger vector space W. As any vector space, W has a basis {wi} that generates any vector in W by linear combinations. It is obvious that any vector of V must be generated through linear combinations of {wi}. However, there are at least two reasons for which {wi} is not a basis for V (a) at least one element of the set {wi} is not in V , and one of the conditions for a given set S to be a basis of a given vector space V is that S ⊆ V . (b) given a basis {vi} of V we have that {wi} and {vi} does not have in general the same cardinality, and we know that different bases must have the same cardinality. Let us see a simple example: let us use an orthonormal basis of R3 given by u1 ≡ 1 √ 3 (1, 1, 1) ; u2 ≡ 1 √ 26 (4, −1, −3) ; u3 = 1 √ 78 (−2, 7, −5) to generate all vector of the XY plane. The coordinates of ui are written with respect to the ordinary cartesian coordinates. Since these vectors generate R3 it is clear that they generate the XY plane which is a proper subset of R3. Notwithstanding, none of the vectors ui lies in the XY plane, all the elements of this “hyperbasis” are outside of the vector space we pretend to expand. Further, any basis of XY has two elements while our hyperbasis has three elements. Therefore, the cardinality of the hyperbasis is higher than the dimension of the space that we shall study. For our purposes however, what really matters is that any vector in XY can be generated as a linear combination of {u1, u2, u3}. For instance, the vector x of the XY plane represented by (3, −2, 0) in ordinary
  • 139.
    1.22. DEFINITION OFAN OBSERVABLE 57 cartesian coordinates, is represented in this hyperbasis as x = (u1, x) u1 + (u2, x) u2 + (u3, x) u3 = 1 √ 3 (1, 1, 1) · (3, −2, 0) u1 + 1 √ 26 (4, −1, −3) · (3, −2, 0) u2 + + 1 √ 78 (−2, 7, −5) · (3, −2, 0) u3 x = 1 √ 3 u1 + 14 √ 26 u2 − 20 √ 78 u3 note that in this case an element of the plane is given by a triple with respect to the hyperbasis, in this case x = 1 √ 3 , 14 √ 26 , − 20 √ 78 in quantum mechanics we shall use a similar strategy but for orthogonal dimensions instead of dimensions. The Hilbert space L2 that concerns us is of infinite countable orthogonal dimension, but we shall use frequently orthogonal basis of a bigger space with infinite continuous orthogonal dimension. Therefore, we shall expand the vectors of L2 in terms of orthogonal hyperbases {vx} with continuous cardinality. In general, the elements vx of the bigger space will be outside of L2. However, as before a fourier expansion (instead of a linear combination) will be possible with this hyperbasis. Notice that for any cardinality of the orthogonal dimension of a Hilbert space, we see that the Fourier expansion Eq. (1.27) is always a series. This is by virtue of theorem 1.18 that says that the non-zero fourier coefficients of any vector are always countable, even if the complete orthonormal set belongs to a higher cardinality. However, such a theorem is valid for complete orthonormal sets in which all the elements of the set lies in the space under consideration. If we use a hyper orthonormal complete set the elements of this hyper orthogonal basis do not lie on the space that we are expanding, thus theorem 1.18 does not necessarily hold. Consequently, when continuous hyper orthonormal basis are used, we shall obtain integrals instead of series in our Fourier expansions. Does it make any sense to replace series by integrals? it suffices to observe that it is in general easier to solve integrals in a closed form than series in a closed form. 1.22. Definition of an observable Measurements in Physics are always real numbers. In quantum mechanics, such measurements are related with eigenvalues of some operators on a Hilber space. It is then natural to associate measurements with eigenvalues of self-adjoint operators since their spectra are always real. For any finite-dimensional Hilbert space it is always possible to form a complete orthonormal set with the eigenvectors of a normal operator, and in particular with the eigenvectors of a self-adjoint operator. However, in infinite dimensional Hilbert spaces this is not necessarily the case. Therefore, we establish the following Definition 1.31 A given self-adjoint operator A on H is called an observable, if there exists a complete ortho- normal set of eigenvectors of A. The following sets of theorems are of central importance in quantum mechanics Theorem 1.66 If two operators A and B commute and if x is an eigenvector of A, then Bx is also an eigenvector of A with the same eigenvalue. If λ is non-degenerate x is also an eigenvector of B. If λ is n−fold degenerate, the eigensubspace Mλ is invariant under B.
  • 140.
    58 CAPÍTULO 1.LINEAR OR VECTOR SPACES Since x is an eigenvector of A we have Ax = λx ⇒ BAx = λBx ⇒ ABx = λBx where we have used the fact that A and B commutes, hence A (Bx) = λ (Bx) which proves that Bx is an eigenvector of A with eigenvalue λ. Observe that if λ is non-degenerate all its eigen- vectors are “colinear” hence Bx must be colinear with x i.e. Bx = cx and x is also an eigenvector of B. On the other hand, if λ is n−fold degenerate, we can only say that Bx lies in the n dimensional eigensubspace Mλ of A. In other words, if x ∈ Mλ then Bx ∈ Mλ Another way to express the previous theorem is Theorem 1.67 If two operators A and B commute, every eigensubspace of A is invariant under B. Of course, the roles of A and B can be interchanged. Theorem 1.68 If two normal operators A and B commute, and if x1, x2 are two eigenvectors of A with different eigenvalues, then (x1, Bx2) = 0. By hypothesis we have Ax1 = λ1x1 ; Ax2 = λ2x2 but from theorem 1.66 Bx2 is an eigenvector of A with eigenvalue λ2. Now from theorem 1.61 since λ1 6= λ2 then Bx2 is orthogonal to x1 and the theorem is proved. The previous theorems do not use the concept of observable6, but the following one does Theorem 1.69 Let A and B be two observables in a Hilbert space H. Then A and B commute⇔one can construct a complete orthonormal set in H with eigenvectors common to A and B. Assume that A and B commute, we shall define the normalized eigenvectors of A as ui n Aui n = λnui n ; i = 1, .., gn where gn is the degree of degeneration of λn. For n 6= n′ the eigenvectors are orthogonal and for n = n′ and i 6= i′ we can always orthonormalized the vectors in each eigensubspace of A, so that ui n, uj k = δnkδij let us write H as a decomposition of the eigenspaces of A (taking into account that A is an observable) H = M1 ⊕ M2 ⊕ M3 ⊕ ... there are two cases. For each one dimensional Mk (each non-degenerate λk) all vectors in Mk are “colinear” and they are also eigenvectors of B. In the other case, gp 1 then Mp is gp dimensional. We can only say that Mp is invariant under B. Consider the restriction of A and B to the subspace Mp. Since the vectors ui p in Mp are eigenvectors of A, the restriction of A to Mp has a matrix representative A (p) ij of the form A (p) ij = vi p, Avj p = vi p, λpvj p = λp vi p, vj p = λpδij 6 However, we assumed that the operators involved posses eigenvalues, and this fact cannot taken for granted in infinite dimensions.
  • 141.
    1.23. COMPLETE SETSOF COMMUTING OBSERVABLES (C.S.C.O.) 59 thus the matrix representation of A(p) is λpI for any orthonormal set complete in Mp (not neccesarily the original). Now let us see the matrix representative of the restriction B(p) of B on Mp, writing this representation in our original orthonormal set B (p) ij = ui p, Buj p since B is a self-adjoint operator this matrix is self-adjoint, and according to theorem 1.65 they can always be diagonalized by a unitary transformation, which in turn means that there exists an orthonormal set vi p in Mp for which the matrix representative of B(p) is diagonal, hence B (p) ij = vi p, Bvj p = B (p) i δij which means that the new orthonormal set complete in Mp consists of eigenvectors of B Bvi p = B (p) i vi p and since Mp contains only eigenvectors of A, it is clear that vi p is an orthonormal set complete in Mp that are common eigenvectors of A and B. Proceeding in this way with all eigensubspaces of A with more than one dimension, we obtain a complete orthonormal set in H in which the elements of the set are common eigenvectors of A and B. It is important to emphasize that for a given Mp the orthonormal set chosen a priori does not in general consist of eigenvectors of B, but it is always possible to obtain another orthonormal set that are eigenvectors of B and by definition they are also eigenvectors of A. Now let us prove that if A and B are observables with a complete orthonormal set of common eigenvectors then they commute. Let us denote the complete orthonormal set of common eigenvectors as ui n,p then ABui n,p = bpAui n,p = anbpui n,p BAui n,p = anBui n,p = anbpui n,p therefore [A, B] ui n,p = 0 since ui n,p form a complete orthonormal set, then [A, B] = 0. It is also very simple to show that if A and B are commuting observables with eigenvalues an and bp and with common eigenvectors ui n,p then C = A + B is also an observable with eigenvectors ui n,p and eigenvalues cn,p = an + bp. 1.23. Complete sets of commuting observables (C.S.C.O.) Consider an observable A and a complete orthonormal set ui n of the Hilbert space that consists of eigenvectors of A. If none of the eigenvalues of A are degenerate then the eigenvalues determine the eigenvectors in a unique way (within multiplicative constant factors). All the eigensubspaces Mi are one-dimensional and the complete orthonormal set is simply denoted by {un}. This means that there is only one complete orthonormal set (except for multiplicative phase factors) associated with the eigenvectors of the observable A. We say that A constitutes by itself a C.S.C.O. On the other hand, if some eigenvalues of A are degenerate, specifying an is not enough to determine a complete orthonormal set for H because any orthonormal set in the eigensubspace Mn can be part of such a complete orthonormal set. Thus the complete orthonormal set determined by the eigenvectors of A is not unique and it is not a C.S.C.O.
  • 142.
    60 CAPÍTULO 1.LINEAR OR VECTOR SPACES Now we add a second observable B that commutes with A, and construct a complete orthonormal set common to A and B. By definition, A and B constitutes a C.S.C.O. if the complete orthonormal set common to both is unique (within constant phase factors for each of the vectors in the complete set). In other words, it means that any pair of eigenvalues an, bp determines the associated common normalized eigenvector uniquely, except for a phase factor. In theorem 1.69 we constructed the complete orthonormal set common to A and B by solving the eigenvalue equation of B within each eigensubspace defined by A. For A and B to constitute a C.S.C.O. it is necessary and sufficient that within each Mn the gn eigenvalues of B be distinct7. In this case, since all eigenvectors vi n in each Mn have the same eigenvalue an of A, they will be distinguished by the gn distinct eigenvalues b (n) i associated with these eigenvectors of B. Note that it is not necessary that the eigenvalues of B be non-degenerate, we can have two (or more) equal eigenvalues of B associated with two (or more) distinct eigensubspaces Mn and Mk of A. We only require not to have degeneration of the eigenvalues of B within a given eigensubspace Mn of A. Indeed, if B were non-degenerate it would be a C.S.C.O. by itself. On the other hand, if for at least one pair {an, bp} there exist two or more linearly independent eigenvectors common to A and B they are not a C.S.C.O.. Let us add a third observable C that commutes with both A and B, and proceeds as above. When to the pair {an, bp} corresponds only one eigenvector common to A and B, then it is automatically an eigenvector of C as well. On the contrary, if the eigensubspace Mn,p is gn,p dimensional, we can construct within it, an orthonormal set of eigenvectors of C. Proceeding in this way with each Mn,p we can construct a complete orthonormal set with eigenvectors common to A, B, C. These three observables are a C.S.C.O. if this complete orthonormal set is unique (except for multiplicative phase factors). Once again, if Mn,p has the eigenvectors ui n,p common to A and B this occurs if and only if all gn,p eigenvalues of C denoted as c (n,p) k are distinct. As before, C can be degenerate, but as long as degenerate eigenvalues are not repeated within a single eigenspace Mn,p of A and B. Therefore, a given triple of eigenvalues {an, bp, ck} of A, B, C has a unique common eigenvector within a multiplicative factor. If two or more linearly independent eigenvectors common to A, B, C can be constructed for a given set {an, bp, ck}, we can add a fourth observable D that commute with those three operators and so on. Definition 1.32 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if (i) All observables commute pairwise, (ii) specifying the set of eigenvalues {an, bp, ck, ..} of the observables determines a unique (within phase factors) complete orthonormal set of eigenvectors common to all the observables. An equivalent form is the following Definition 1.33 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if there is a unique complete orthonormal set (within phase factors) of common eigenvectors. It is obvious that if a given set is a C.S.C.O. we can add any observable that commutes with the observables of the set and the new set is also a C.S.C.O. However, for most of our purposes we shall be interested in “minimal C.S.C.O.” in the sense that by removing any observable of the set, the new set is not complete. If a given set {A1, .., An} of observables is a C.S.C.O., an eigenvector associated with a set {ak1 , .., akn } determines a unique common normal eigenvector (within a phase factor) so it is natural to denote the vector as uak1 ,ak2 ,akn . We shall see later that in quantum mechanics a global phase has no Physical information. Therefore, all normal vectors associated with {ak1 , .., akn } have the same Physical information, this fact enhance the qualification of “unique” for these vectors, although they are not unique from the mathematical point of view. 7 If Mn is one dimensional then an eigenvector of A in Mn is automatically an eigenvector of B and it is clearly uniquely determined, except for multiplicative factors. Only the case in which Mn has more than one dimension is non-trivial.
  • 143.
    1.24. SOME TERMINOLOGYCONCERNING QUANTUM MECHANICS 61 1.24. Some terminology concerning quantum mechanics We have defined linear combinations as finite sums. A basis in a vector space is thus a set of linearly indepen- dent vectors for which any vector of the space can be written as a finite sum of elements of the basis (multiplied by the appropiate scalars). Notably, bases always exist even in an infinite-dimensional vector space. However, in practice it is not easy to find a basis in an infinite dimensional Hilbert space. In this case, it is more usual to utilize complete orthonormal sets, they make a work similar to basis in the sense that they generate any vector, but the difference is that complete orthonormal sets expand a vector in a series (Fourier expansion) while bases do it in finite sums. In quantum mechanics we call a basis to mean a complete orthonormal set, and the series expansion is usually call a linear combination. Since we never use basis in the mathematical sense, there is no confusion with this terminology. Self-adjoint operators are usually called hermitian operators. The conjugate space H∗ of H is usually call the dual space of H. The vectors in our Hilbert space are called kets, while the correponding elements in the dual space (the functionals) are called bras. In addition the Hilbert space we work with, is a separable space so that its dimension is countable (countably infinite). We shall resort however to some hyperbases which are of continuous cardinality, the elements of these hyperbases do not belong to our Hilbert space. Consequently, the elements of the hyperbasis will not be physical states, but we shall call them continuous basis. Nevertheless, they will be very useful for practical calculations. In addition there will be a change of notation to facilitate the mathematical calculations, it is called Dirac notation 1.25. The Hilbert Space L2 We shall see later that the information of a quantum particle is described by a function of the space and time denoted as ψ (r, t) and called the wave function. The quantity, |ψ (r, t)|2 dx dy dz will be interpreted as the probability of finding at time t, the particle in a volume dx dy dz. Since the particle must be somewhere in the space, we must demand that the integral over the whole volume must be equal to unity Z dV |ψ (r, t)|2 = 1 the integration extends over all space. However, in certain cases we could assume that the particle is in a given confined volume and the integral will be restricted to such a volume. The discussion above leads to the fact that the space of Physical states of one particle should be described by a square-integrable wave function. The state space is then the Hilbert space L2 of the square-integrable functions in a given volume. For a system of several particles we will have a space with similar features, but by now we will concentrate on the space that describes a single particle. For several reasons we cannot specified in general the state space of a particle. First of all, several physical considerations can lead us to the fact that the particl is confined to a certain bounded volume. For instance, in one dimension it is not the same the space of functions that are square integrable in the whole real line, as (say) the space of functions that are square integrable in a bounded interval. In other words, different regions of square integrability leads us to different L2 spaces. On the other hand, it is usual to demand as well as square integrability, that the functions accomplish additional features of regularity. For example, to be defined all along the interval, or to be continuous, derivable, etc. The specific conditions depend on the particular context, and they are required to define the state space completely. For example, it has no physical meaning to have a function that is discontinuous at a given point since no experiment can measure a real phenomenon at scales below certain threshold. We could then be tempted to say that we must demand the functions to be continuous. However, this is not necessarily the case since some non- physical functions could help us to figure out what is happening. Let us take some familiar examples in classical mechanics, it is usual in electrostatics to assume the presence of a surface charge, which leads to a discontinuity
  • 144.
    62 CAPÍTULO 1.LINEAR OR VECTOR SPACES in the electric field, in the real world a charge is distributed in a very thin but finite layer and the discontinuity is replaced by a very slopy curve. Indeed, a surface charge is equivalent to an infinite volume density, but we have seen that this assumption provides a simple picture of many electrostatic phenomena though it is not a real physical state. Classical waves represented by a single plane wave in optics are other good examples, since it is not possible to have a real wave being totally monochromatic (a physical state is always a superposition of several plane waves), but many of the wave phenomena are easier to study with these non physical states, and indeed many real physical phenomena such as the laws of geometric optics are predicted by using them. In summary, depending on our purposes (and attitudes) we could demand to have only physical states or to decide to study some non-physical ones that are obtain when some physical parameters are settle at extreme values. Quantum mechanics is not the exception for this strategy, and our assumptions on the functions to work with, affects the definition of the Hilbert space of states that we should use as a framework. Hence, given the volume V in which the particle can stay, we say that our space of states is a subspace of the Hilbert space L2 of the square integrable functions in the volume V . We denote by ̥ the subspace of states in which ̥ ⊆ L2. For this subspace to be a Hilbert space, it must be closed (for completeness to be maintained). 1.25.1. The wave function space ̥ According to the discussion above, we only can say that our wave function space that describe our physical states is a closed subspace of L2 for a volume determined by our physical conditions. What really matters is to be sure whether the additional conditions imposed to our functions keeps ̥ as a closed vector space. For instance, if we assume continuity and/or derivability, it is easy to show that a finite linear combination preserves these conditions. Less evident is to ensure that a series preserves these conditions (for the subspace to be closed in L2), but we are not be concern with this problem here, neither we shall discuss the aspects concerning the completeness of L2. We then limite ourselves to determine the vector space character of L2. Let ψ1, ψ2 ∈ L2, we show that ψ (r) = λ1ψ1 (r) + λ2ψ2 (r) is a square integrable function. For this, we expand |ψ (r)|2 |ψ (r)|2 = |λ1|2 |ψ1 (r)|2 + |λ2|2 |ψ2 (r)|2 + λ∗ 1λ2ψ∗ 1 (r) ψ2 (r) + λ1λ∗ 2ψ1 (r) ψ∗ 2 (r) now for the last two terms we have |λ∗ 1λ2ψ∗ 1 (r) ψ2 (r)| = |λ1λ∗ 2ψ1 (r) ψ∗ 2 (r)| ≤ |λ1| |λ2| h |ψ1 (r)|2 + |ψ2 (r)|2 i hence |ψ (r)|2 ≤ |λ1|2 |ψ1 (r)|2 + |λ2|2 |ψ2 (r)|2 + 2 |λ1| |λ2| h |ψ1 (r)|2 + |ψ2 (r)|2 i and the integral of each of the functions on the right-hand side converges. Then the integral Z |ψ (r)|2 dV converges. So ψ is a square integrable function. The scalar product will be defined as (ϕ, ψ) = Z dV ϕ∗ (r) ψ (r) it can be shown that this integral always converges if ϕ and ψ belong to L2. We should check that this definition accomplishes the properties of an inner product, the properties arise directly from the definition (ϕ, λ1ψ1 + λ2ψ2) = λ1 (ϕ, ψ1) + λ2 (ϕ, ψ2) ; (λ1ϕ1 + λ2ϕ2, ψ) = λ∗ 1 (ϕ1, ψ) + λ∗ 2 (ϕ2, ψ) (ϕ, ψ) = (ψ, ϕ)∗ ; (ψ, ψ) ≡ kψk2 ≥ 0 and (ψ, ψ) = 0 ⇔ ψ = 0
  • 145.
    1.26. DISCRETE ORTHONORMALBASIS 63 let us mention some important linear oprators on functions ψ (r) ∈ ̥. The parity opeartor defined as Πψ (x, y, z) = ψ (−x, −y, −z) the product operator X defined as Xψ (x, y, z) = xψ (x, y, z) and the differentiation operator with respect to x denoted as Dx Dxψ (x, y, z) = ∂ψ (x, y, z) ∂x it is important to notice that the operators X and Dx acting on a function ψ (r) ∈ ̥, can transform it into a function that is not square integrable. Thus it is not an operator of ̥ into ̥ nor onto ̥. However, the non-physical states obtained are frequently useful for practical calculations. The commutator of the product and differentiation operator is of central importance in quantum mechanics [X, Dx] ψ (r) = x ∂ ∂x − ∂ ∂x x ψ (r) = x ∂ ∂x ψ (r) − ∂ ∂x [xψ (r)] = x ∂ ∂x ψ (r) − x ∂ ∂x ψ (r) − ψ (r) [X, Dx] ψ (r) = −ψ (r) ∀ψ (r) ∈ ̥ therefore [X, Dx] = −I (1.105) 1.26. Discrete orthonormal basis The Hilbert space L2 (and thus ̥) has a countable infinite dimension, so that any authentic basis of ̥ must be infinite but discrete. A discrete orthonormal basis {ui (r)} with ui (r) ∈ ̥ should follows the rules given in section 1.9.1. Thus orthonormality is characterized by (ui, uj) = Z d3 r u∗ i (r) uj (r) = δij the expansion of any wave function (vector) of this space is given by the Fourier expansion described by Eq. (1.27) ψ (r) = X i ciui (r) ; ci = (ui, ψ) = Z d3 r u∗ i (r) ψ (r) (1.106) using the terminology for finite dimensional spaces we call the series a linear combination and ci are the components or coordinates, which correspond to the Fourier coefficients. Such coordinates provide the representation of ψ (r) in the basis {ui (r)}. It is very important to emphasize that the expansion of a given ψ (r) must be unique for {ui} to be a basis, in this case this is guranteen by the form of the Fourier coefficients. Now if the Fourier expansion of two wave functions are ϕ (r) = X j bjuj (r) ; ψ (r) = X i ciui (r) The scalar product and the norm can be expressed in terms of the components or coordinates of the vectors according with Eqs. (1.65, 1.66) (ϕ, ψ) = X i b∗ i ci ; (ψ, ψ) = X i |ci|2 (1.107) and the matrix representation of an operator T in a given orthonormal basis {ui} is obtained from Eq. (1.69) Tij ≡ (ui, Tuj)
  • 146.
    64 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.26.1. Función delta de Dirac Como veremos a continuación la función delta de Dirac es un excelente instrumento para expresar el hecho de que un conjunto ortonormal dado sea completo. También es útil para convertir densidades puntuales, lineales y superficiales, en densidades volumétricas equivalentes. Es importante enfatizar que la función delta de Dirac mas que una función es una distribución. En el lenguaje del análisis funcional, es una uno-forma que actúa en espacios vectoriales de funciones, asignándole a cada elemento del espacio, un número real de la siguiente forma: Sea V el espacio vectorial de las funciones definidas en el dominio (b, c) con ciertas propiedades de continuidad, derivabilidad, integrabilidad, etc. La distribución delta de Dirac es un mapeo que asigna a cada elemento f (x) de V un número real con el siguiente algoritmo8 Z c b f (x) δ (x − a) dx = f (a) si a ∈ (b, c) 0 si a / ∈ [b, c] mencionaremos incidentalmente que con esta distribución es posible escribir una densidad de carga (o masa) puntual (ubicada en r0) como una densidad volumétrica equivalente ρ (r) = qδ r′ − r0 (1.108) esta densidad reproduce adecuadamente tanto la carga total como el potencial y el campo que genera, una vez que se hagan las integrales apropiadas. Hay varias sucesiones de distribuciones que convergen a la función Delta de Dirac, una de las mas utilizadas es la sucesión definida por fn (x − a) = n √ π e−n2(x−a)2 (1.109) se puede demostrar que al tomar el lı́mite cuando n → ∞ se reproduce la definición y todas las propiedades básicas de la distribución delta de Dirac. Nótese que todas las distribuciones gaussianas contenidas en esta sucesión tienen área unidad y están centradas en a. De otra parte, a medida que aumenta n las campanas gaussianas se vuelven más agudas y más altas a fin de conservar el área, para valores n suficientemente altos, el área se concentra en una vecindad cada vez más pequeña alrededor de a. En el lı́mite cuando n → ∞, toda el área se concentra en un intervalo arbitrariamente pequeño alrededor de a. Algunas propiedades básicas son las siguientes: 1. R ∞ −∞ δ (x − a) dx = 1 2. R ∞ −∞ f (x) ∇δ (r − r0) dV = − ∇f|r=r0 3. δ (ax) = 1 |a| δ (x) 4. δ (r − r0) = δ (r0 − r) 5. xδ (x) = 0 6. δ x2 − e2 = 1 2|e| [δ (x + e) + δ (x − e)] Vale enfatizar que debido a su naturaleza de distribución, la función delta de Dirac no tiene sentido por sı́ sola, sino únicamente dentro de una integral. Por ejemplo cuando decimos que δ (ax) = 1 |a| δ (x), no estamos hablando 8 Es usual definir la “función” delta de Dirac como δ (r) = ∞ si r = 0 0 si r 6= 0 y R δ (x) dx = 1. Esta definición se basa en una concepción errónea de la distribución delta de Dirac como una función. A pesar de ello, hablaremos de ahora en adelante de la función delta de Dirac para estar acorde con la literatura.
  • 147.
    1.27. CLOSURE RELATIONS65 de una coincidencia numérica entre ambos miembros, sino de una identidad que se debe aplicar al espacio vectorial de funciones en que estemos trabajando, es decir Z c b f (x) δ (ax) dx = Z c b f (x) 1 |a| δ (x) dx ∀ f (x) ∈ V y ∀ a ∈ R Estrictamente, el mapeo también se puede hacer sobre los números complejos con propiedades análogas. En este mismo espı́ritu, es necesario aclarar que la densidad volumétrica equivalente de una carga puntual (y todas las densidades equivalentes que se pueden formar con la delta) es realmente una distribución. Por ejemplo, la densidad descrita por (1.108), solo tiene realmente sentido dentro de integrales que generan la carga total, el potencial o el campo. Las densidades ordinarias son funciones, pero las densidades equivalentes son distribuciones. En sı́ntesis, lo que se construye con la densidad volumétrica equivalente es una distribución que me produzca el mapeo adecuado para reproducir la carga total, el potencial y el campo. En más de una dimensión la delta se convierte simplemente en productos de deltas unidimensionales, la propiedad R δ(n) (x) dnx = 1, aplicada a n dimensiones, nos dice que la delta no es adimensional, sus dimensiones son de x−n. De momento, el uso que le daremos a la delta estará relacionado con la completez del sistema orthonormal que usemos. Nótese que en dimension finita la completez se comprueba simplemente asegurándonos de tener igual número de vectores linealmente independientes que la dimensión del espacio. En espacios de dimension infinita en cambio podrı́amos tener un conjunto infinito contable que no fuera completo y que se vuelve completo al agregarle otro conjunto finito o infinito contable, pues en tal caso la cardinalidad no cambia. En dimensión infinita un conjunto ortonormal puede tener la cardinalidad de la dimensión ortogonal del espacio y sin embargo no ser completo. Es por esto que la prueba de completez es particularmente importante. 1.27. Closure relations Naturalmente, para que todo vector arbitrario ψ (r) de ̥ sea expandible en los vectores unitarios linealmente independientes {ui (r)}, es necesario que el conjunto que define la base sea completo, la condición de completez puede obtenerse reemplazando los coeficientes de Fourier cn en la expansión de ψ (r) ψ (r) = X n cnun (r) = X n (un, ψ) un (r) = X n Z B A u∗ n r′ ψ r′ un (r) d3 r′ ψ (r) = Z B A ψ r′ X n u∗ n r′ un (r) # d3 r′ donde la integral con lı́mites A y B significa una integral triple de volumen. Por otro lado ψ (r) = Z B A ψ r′ δ r − r′ d3 r′ Igualando las dos últimas expresiones, y teniendo en cuenta que ψ (r′) es arbitraria se obtiene X n u∗ n r′ un (r) = δ r − r′ (1.110) retrocediendo en nuestros pasos vemos que la relación anterior nos garantiza que cualquier función arbitraria dentro del espacio se puede expandir en términos del conjunto {un (r)}. A su vez vemos que la expansion para una base ordenada dada {un (r)} es única, lo cual se obtiene gracias a la independencia lineal del conjunto. Por tanto a la Ec. (1.110), se le conoce como relación de completez. We shall study several complete sets that consequently accomplish property (1.110). The proof of completeness of these sets is however out of the scope of this manuscript.
  • 148.
    66 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.28. Introduction of hyperbases In the case of discrete basis each element ui (r) is square integrable and thus belong to L2 and in general to ̥ as well. As explained before, it is sometimes convenient to use some hyperbases in which the elements of the basis do not belong to either L2 or ̥, but in terms of which a function in ̥ can be expanded, the hyperbasis {u (k, r)} will have in general a continuous cardinality with k denoting the continuous index that labels each vector in the hyperbasis. According to our previous discussions the Fourier expansions made with this hyperbasis are not series but integrals, these integrals will be called continuous linear combinations. 1.29. Closure relation with hyperbases In the hyperbasis {u (k, r)}, k is a continuous index defined in a given interval [c, d]. Such an index makes the role of the index n in discrete bases. We shall see that a consistent way of expressing orthonormality for this continuous basis is9 (uk, uk′ ) = Z B A u∗ (k, r) u k′ , r d3 r = δ k − k′ (1.111) we show it by reproducing the results obtained with discrete bases. Expanding an arbitrary function ψ (r) of our Hilbert space as a continuous linear combination of the basis gives ψ (r) = Z d c c (k) u (k, r) dk then we have (uk′ , ψ) = uk′ , Z d c c (k) u (k, r) dk = Z d c c (k) (uk′ , uk) dk = Z d c c (k) δ k − k′ dk = c k′ from which the fourier coefficients of the continuous expansion are evaluated as c k′ = (uk′ , ψ) (1.112) when the Fourier coefficients are associated with continuous linear combinations (integrals) they are usually called Fourier transforms. In this case, a vector is represented as a continuous set of coordinates or components, where the components or coordinates are precisely the Fourier transforms. Therefore, in terms of the inner product, the calculation of the Fourier coefficients in a continuous basis (Fourier transforms) given by Eq. (1.112) coincides with the calculation of them with discrete bases Eq. (1.106). Eq. (1.112) in turn guarantees that the expansion for a given ordered continuous bases is unique10. Those facts in turn depends strongly on our definition of orthonormality in the continuous regime Eq. (1.111) showing the consistency of such a definition. After all, we should remember that hyperbases are constructed as useful tools and not as physical states, in that sense we should not expect a “truly orthonormality relation” between them11. 9 From now on we shall say continuous bases, on the understanding that they are indeed hyperbases. 10 Remember that for a given set of vectors to constitute a basis, it is important not only to be able to expand any vector with the elements of the set, it is also necessary for the expansion of each vector to be unique. In normal basis (not hyperbasis) this is guaranteed by the linear independence, in our continuous set it is guranteed by our definition of orthonormality in such a set. 11 It is clear for example that with r = r′ the “orthonormality” relation diverge, so it is not a normalization in the mathematical sense.
  • 149.
    1.30. INNER PRODUCTAND NORM IN TERMS OF A HYPERBASIS 67 Let us see the closure relation ψ (r) = Z d c c (k) u (k, r) dk = Z d c (uk, ψ) u (k, r) dk ψ (r) = Z d c Z B A u∗ k, r′ ψ r′ d3 r′ u (k, r) dk ψ (r) = Z B A Z d c u∗ k, r′ u (k, r) dk ψ r′ d3 r′ on the other hand ψ (r) = Z B A δ r − r′ ψ r′ d3 r′ from which we find Z d c u∗ k, r′ u (k, r) dk = δ r − r′ (1.113) which defines us the closure relation for a continuous basis {u (k, r)}. From the discussion above, the closure relations for discrete or continuous basis can be interpreted as “re- presentations” of the Dirac delta function. Similar situation occurs with the orthonormality relation but only for continuous bases. It worths emphasizing at this point that a given representation of the delta in a given space cannot be applied to another space. For example, it is possible to have a r−dimensional vector space of functions V1 with a basis {vn (r)}, that defines a closure relation Pr n=1 v∗ n (r′) vn (r) = δ1 (r − r′), let us think about another r + k dimensional vector space denoted by V2 and such that V2 ⊃ V1, such that a basis {um} of V2 includes the previous basis plus other linearly independent vectors; the closure relation is: Pr+k n=1 u∗ n (r′) un (r) = δ2 (r − r′). What is the difference between δ1 (r − r′) and δ2 (r − r′)?, the answer lies in the distribution nature of the badly called Dirac delta function; the fundamental property of this distribution tells us that for all functions ψ (r′) that belongs to V1 we have that ψ (r) = Z B A ψ r′ X n v∗ n r′ vn (r) # d3 r′ = Z B A ψ r′ δ1 r − r′ d3 r′ however, if the function ψ (r) does not belong to V1 but it belongs to V2 then δ1 (r − r′) is not an adequate distribution to represent this function. This is a general property of the distributions, since they are defined solely by means of the way in which they map the functions of a specific vector space into the scalars. A representation of the Dirac delta (and in general of any distribution) is linked to a very specific vector space of functions. 1.30. Inner product and norm in terms of the components of a vector in a hyperbases Let us take two vectors ϕ and ψ that belong to ̥. Both can be expressed as continuous linear combinations of a continuous basis {uk} ψ (r) = Z d c dk u (k, r) c (k) ; ϕ (r) = Z d c dk′ u k′ , r b k′ now the idea is to write the scalar product of them in terms of the continuous set of components of each vector i.e. in terms of their Fourier transforms c (k) and b (k′). The scalar product is (ϕ, ψ) = Z B A d3 r ϕ∗ (r) ψ (r) = Z d c dk′ Z d c dk b∗ k′ c (k) Z B A d3 r u∗ k′ , r u (k, r)
  • 150.
    68 CAPÍTULO 1.LINEAR OR VECTOR SPACES now using the orthonormality relation Eq. (1.111) we have (ϕ, ψ) = Z B A d3 r ϕ∗ (r) ψ (r) = Z d c dk′ Z d c dk b∗ k′ c (k) δ k − k′ (ϕ, ψ) = Z d c dk b∗ (k) c (k) (1.114) the norm is obtained simply by taking ϕ = ψ then (ψ, ψ) = kψk2 = Z d c dk |c (k)|2 (1.115) Eqs. (1.114, 1.115) are clearly the continuous analogs of Eq. (1.107) for discrete basis. In summary, the basic relations obtained in discrete bases (inner products, norms, fourier coefficients, ortho- normality, completeness etc.) possses the same structure in continuous bases but with the following replacements i(discrete) ↔ k(continuous) , X i ↔ Z dk , δij ↔ δ k − k′ 1.31. Some specific continuous bases 1.31.1. Plane waves We shall use a continuous basis represented by the set n zeip·r/~ o ; z ≡ 1 2π~ 3/2 where p is the continuous index that labels the different vectors of the basis. Indeed, p represents three continuous indices px, py, pz. By now ~ is simply a mathematical constant, but it will become highly relevant in Physics. We consider the space of square integrable functions over the whole space, all integrals are undestood to be triple integrals. The continuous linear combination of a given square integrable function is given by ψ (r) = 1 2π~ 3/2 Z ∞ −∞ d3 p ψ̄ (p) eip·r/~ it is clear that ψ̄ (p) provides the continuous set of coordinates of the vector ψ (r) under our continuous basis. They are thus the Fourier transforms of ψ (r) with respect to the basis of plane waves. It is useful to define vp (r) ≡ zeip·r/~ (1.116) from which the fourier transforms can be calculated by Eq. (1.112) c (k) = (uk, ψ) ⇒ ψ̄ (p) = (vp, ψ) = 1 2π~ 3/2 Z ∞ −∞ d3 r e−ip·r/~ ψ (r) the basic relation in Fourier analysis 1 (2π)3 Z ∞ −∞ d3 k eik·u = δ3 (u) (1.117) can be used by assigning k → zp and u → (r − r′) to show that Z ∞ −∞ d3 p v∗ p r′ vp (r) = 1 (2π~)3 Z ∞ −∞ d3 p ei p ~ (r−r′) = δ3 r − r′ (1.118)
  • 151.
    1.31. SOME SPECIFICCONTINUOUS BASES 69 by comparing it with Eq. (1.113), we see that (1.118) expresses the completeness relation for the continuous basis {vp} in the space of functions that are square-integrable in the whole physical space. The orthonormality relation can also be obtained from the property (1.117) but with the assignments k → zr and u → p − p′ vp, vp′ = 1 (2π~)3 Z ∞ −∞ d3 r e−i r ~ (p−p′) = δ3 p′ − p = δ3 p − p′ (1.119) by using p = p′ in Eq. (1.119) it is clear that kvpk2 = (vp, vp) is divergent. Thus, the plane waves are not square- integrable in the whole space. Therefore, the elements of this continuous basis do not belong to the Hilbert space under study. 1.31.2. “Delta functions” We shall use a continuous basis of “highly improper” functions defined by ξr0 (r) ≡ δ (r − r0) (1.120) {ξr0 (r)} represents the set of delta functions centered at each of the points r0 of the whole space. These functions are not square-integrable so {ξr0 (r)} / ∈ ̥. Nevertheless, the following relations are valid for functions that belong to ̥ ψ (r) = Z d3 r0 ψ (r0) δ (r − r0) ψ (r0) = Z d3 r ψ (r) δ (r0 − r) rewritten them appropiately we have ψ (r) = Z d3 r0 ψ (r0) ξr0 (r) (1.121) ψ (r0) = Z d3 r ξ∗ r0 (r) ψ (r) = (ξr0 , ψ) (1.122) Eq. (1.121) gives ψ (r) ∈ ̥ as a continuous linear combination of the set {ξr0 }, where ψ (r0) are the fourier transforms. On the other hand, (1.122) indicates that the fourier transforms are evaluated as usual. By using the properties of the Dirac delta function, it is possible to prove that the set {ξr0 } accomplishes orthonormality and completeness relations ξr0 , ξr′ 0 = Z d3 r δ (r − r0) δ r − r′ 0 = δ r0 − r′ 0 and Z d3 r0 ξ∗ r0 r′ ξr0 (r) = Z d3 r0 δ r′ − r0 δ (r − r0) = δ r − r′ note that the non-physical functions that constitute a continuous basis can usually be seen as limits in which one or more parameters of a physically realizable state are taken at extreme (non-physical) values. As an example the Dirac function can be taken as the limit of gaussians given by Eq. (1.109) fn (x − a) = n √ π e−n2(x−a)2 for each value of n these functions are square integrable, continuous, and derivable, they could describe a physical system. Notwithstanding, by taking n → ∞, the functions are no longer square-integrable and lose all properties of well-behavior. Concerning plane waves, physical states (in both classical and quantum mechanics) consists of a superposition of plane waves with a finite width spectrum of frecuencies ∆ν, by taking the limit ∆ν → 0 we obtain a monochromatic (non-physical) wave, corresponding to a single plane wave.
  • 152.
    70 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.32. Tensor products of vector spaces, definition and properties Let V1 and V2 be two vector spaces of dimension n1 and n2. Vectors and operators on each of them will be denoted by labels (1) and (2) respectively. Definition 1.34 The vector space V is called the tensor product of V1 and V2 V ≡ V1 ⊗ V2 if there is associated with each pair of vectors x (1) ∈ V1 and y (2) ∈ V2 a vector in V denoted by x (1) ⊗ y (2) and called the tensor product of x (1) and y (2), and in which this correspondence satisfies the following conditions: (a) It is linear with respect to multiplication by a scalar [αx (1)] ⊗ y (2) = α [x (1) ⊗ y (2)] ; x (1) ⊗ [βy (2)] = β [x (1) ⊗ y (2)] (1.123) (b) It is distributive with respect to addition x (1) + x′ (1) ⊗ y (2) = x (1) ⊗ y (2) + x′ (1) ⊗ y (2) x (1) ⊗ y (2) + y′ (2) = x (1) ⊗ y (2) + x (1) ⊗ y′ (2) (1.124) (c) When a basis is chosen in each space, say {ui (1)} in V1 and {vj (2)} in V2, the set of vectors ui (1) ⊗ vj (2) constitutes a basis in V . If n1 and n2 are finite, the dimension of the tensor product space V is n1n2. An arbitrary couple of vectors x (1), y (2) can be written in terms of the bases {ui (1)} and {vj (2)} respectively, in the form x (1) = X i aiui (1) ; y (2) = X j bjvj (2) Using Eqs. (1.123, 1.124) we see that the expansion of the tensor product is given by x (1) ⊗ y (2) = X i X j aibjui (1) ⊗ vj (2) so that the components of the tensor product of two vectors are the products of the components of the two vectors of the product. It is clear that the tensor product is commutative i.e. V1 ⊗V2 = V2 ⊗V1 and x (1)⊗y (2) = y (2)⊗x (1) On the other hand, it is important to emphasize that there exist in V some vectors that cannot be written as tensor products of a vector in V1 with a vector in V2. Nevertheless, since {ui (1) ⊗ vj (2)} is a basis in V any vector in V can be expanded in it ψ = X i X j cijui (1) ⊗ vj (2) (1.125) in other words, given a set of n1n2 coefficients of the form cij it is not always possible to write them as products of the form aibj of n1 numbers ai and n2 numbers bj, we cannot find always a couple of vectors in V1 and V2 such that ψ = x (1) ⊗ y (2). 1.32.1. Scalar products in tensor product spaces If there are inner products defined in the spaces V1 and V2 we can define an inner product in the tensor product space V . For a couple of vectors in V of the form x (1) ⊗ y (2) the inner product can be written as x′ (1) ⊗ y′ (2) , x (1) ⊗ y (2) = x′ (1) , x (1) (1) y′ (2) , y (2) (2)
  • 153.
    1.32. TENSOR PRODUCTSOF VECTOR SPACES, DEFINITION AND PROPERTIES 71 where the symbols (, )(1) and (, )(2) denote the inner product of each of the spaces of the product. From this, we can see that if the bases {ui (1)} and {vj (2)} are orthonormal in V1 and V2 respectively, then the basis {ui (1) ⊗ vj (2)} also is (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = (ui (1) , uk (1))(1) (vj (2) , vm (2))(2) = δikδjm Now, for an arbitrary vector in V , we use the expansion (1.125) and the basic properties of the inner product (ψ, φ) =   X i X j cijui (1) ⊗ vj (2) , X k X m bkmuk (1) ⊗ vm (2)   = X i,j c∗ ij X k,m bkm (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = X i,j c∗ ij X k,m bkmδikδjm (ψ, φ) = X i,j c∗ ijbij it is easy to show that with these definitions the new product accomplishes the axioms of an inner product. 1.32.2. Tensor product of operators Consider a linear transformation A (1) defined in V1, we associate with it a linear operator e A (1) acting on V as follows: when e A (1) is applied to a tensor of the type x (1) ⊗ y (2) we define e A (1) [x (1) ⊗ y (2)] = [A (1) x (1)] ⊗ y (2) when the operator is applied to an arbitrary vector in V , this definition is easily extended because of the linearity of the transformation e A (1) ψ = e A (1) X i X j cijui (1) ⊗ vj (2) = X i X j cij e A (1) [ui (1) ⊗ vj (2)] e A (1) ψ = X i X j cij [A (1) ui (1)] ⊗ vj (2) (1.126) the extension e B (2) of a linear transformation in V2 is obtained in a similar way e B (2) ψ = X i X j cijui (1) ⊗ [B (2) vj (2)] finally, if we consider two operators A (1) , B (2) defined in V1 and V2 respectively, we can define their tensor product A (1) ⊗ B (2) as [A (1) ⊗ B (2)] ψ = X i X j cij [A (1) ui (1)] ⊗ [B (2) vj (2)] (1.127) it is easy to show that A (1) ⊗ B (2) is also a linear operator. From Eqs. (1.126, 1.127) we can realize that the extension of the operator A (1) on V1 to an operator e A (1) on V can be seen as the tensor product of A (1) with the identity operator I (2) on V2. A similar situation occurs with the extension e B (2) e A (1) = A (1) ⊗ I (2) ; e B (2) = I (1) ⊗ B (2) (1.128) Now let us put the operators A (1)⊗B (2) and e A (1) e B (2) to act on an arbitrary element of a basis {ui (1) ⊗ vj (2)} of V [A (1) ⊗ B (2)] ui (1) ⊗ vj (2) = [A (1) ui (1)] ⊗ [B (2) vj (2)] h e A (1) e B (2) i ui (1) ⊗ vj (2) = e A (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
  • 154.
    72 CAPÍTULO 1.LINEAR OR VECTOR SPACES therefore, the tensor product A (1) ⊗ B (2) coincides with the ordinary product of two operators e A (1) and e B (2) on V A (1) ⊗ B (2) = e A (1) e B (2) additionally, it can be shown that operators of the form e A (1) and e B (2) commute in V . To see it, we put their products in both orders to act on an arbitrary vector of a basis {ui (1) ⊗ vj (2)} of V h e A (1) e B (2) i ui (1) ⊗ vj (2) = e A (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)] h e B (2) e A (1) i ui (1) ⊗ vj (2) = e B (2) {[A (1) ui (1)] ⊗ vj (2)} = [A (1) ui (1)] ⊗ [B (2) vj (2)] therefore we have h e A (1) , e B (2) i = 0 or A (1) ⊗ B (2) = B (2) ⊗ A (1) an important special case of linear operators are the projectors, as any other linear operator, the projector in V is the tensor product of the projectors in V1 and V2. Let M1 and N1 be the range and null space of a projector in V1 and M2, N2 the range and null space of a projector in V2 V1 = M1 ⊕ N1 ; x (1) = xM (1) + xN (1) ; xM (1) ∈ M1, xN (1) ∈ N1 ; P1 (x (1)) = xM (1) V2 = M2 ⊕ N2 ; y (2) = yM (2) + yN (2) ; yM (2) ∈ M2, yN (2) ∈ N2 ; P2 (y (2)) = yM (2) (P1 ⊗ P2) (x (1) ⊗ y (2)) = [P1x (1)] ⊗ [P2y (2)] = xM (1) ⊗ yM (2) for an arbitrary vector we have (P1 ⊗ P2) ψ = (P1 ⊗ P2) X i X j cijui (1) ⊗ vj (2) = X i X j cij [P1ui (1)] ⊗ [P2vj (2)] (P1 ⊗ P2) ψ = X i X j cijui,M (1) ⊗ vj,M (2) finally, as in the case of vectors, there exists some operators on V that cannot be written as tensor products of the form A (1) ⊗ B (2). 1.32.3. The eigenvalue problem in tensor product spaces Let us assume that we have solved the eigenvalue problem for an operator A (1) of V1. We want to seek for information concerning the eigenvalue problem for the extension of this operator to the tensor product space V . For simplicity, we shall assume a discrete spectrum A (1) xi n (1) = anxi n (1) ; i = 1, 2, . . . , gn ; xi n (1) ∈ V1 where gn is the degeneration associated with an. We want to solve the eigenvalue problem for the extension of this operator in V = V1 ⊗ V2 e A (1) ψ = λψ ; ψ ∈ V1 ⊗ V2 from the definition of such an extension, we see that a vector of the form xi n (1) ⊗ y (2) for any y (2) ∈ V2 is an eigenvector of e A (1) with eigenvalue an e A (1) xi n (1) ⊗ y (2) = A (1) xi n (1) ⊗ y (2) = anxi n (1) ⊗ y (2) ⇒ e A (1) xi n (1) ⊗ y (2) = an xi n (1) ⊗ y (2)
  • 155.
    1.32. TENSOR PRODUCTSOF VECTOR SPACES, DEFINITION AND PROPERTIES 73 it is natural to ask whether any eigenvector of e A (1) can be generated in this way. We shall see that it is true if A (1) is an observable in V1. Assuming it, the set of orthonormal eigenvectors xi n (1) forms a basis in V1. If we now take an orthonormal basis {ym (2)} in V2, then the set of vectors ψi,m n ≡ xi n (1) ⊗ ym (2) forms an orthonormal basis in V . It is clear that the set n ψi,m n o consists of eigenvectors of e A (1) with eigenvalues an, and since they are a basis, a complete orthonormal set of eigenvectors of e A (1) have been generated with the procedure explained above. This in turn means that if A (1) is an observable in V1, its extension e A (1) is also an observable in V . Further, the spectrum of e A (1) coincides with the spectrum of A (1). Notwithstanding, it worths to say that if N2 is the dimension of V2, if an is gn−fold degenerate in V1, it will be gn ·N2−degenerate in V . This is because for a given eigenvector xi n (1) in V1, there are N2 eigenvectors ψi,m n ≡ xi n (1) ⊗ ym (2) since m = 1, . . . , N2. We know that each eigenvalue an of A (1) in V1 defines an eigensubspace V1,an in V1 with gn dimension. The corresponding eigensubspace generated by an in V is a N2 · gn subspace Van . The projector onto V1,an is written by V1 = V1,an ⊕ V ⊥ 1,an ; x (1) = xan (1) + x⊥ an (1) ; xan (1) ∈ V1,an , x⊥ an (1) ∈ V ⊥ 1,an Pan 1 (x (1)) = xan (1) and its extension to V is defined as e Pan 1 ≡ Pan 1 ⊗ I2 ; e Pan 1 ψi,m n ≡ e Pan 1 xi n (1) ⊗ ym (2) = Pan 1 xi n (1) ⊗ ym (2) e Pan 1 ψi,m n = xan (1) ⊗ ym (2) Now assume that we have a sum of operators of both spaces C = e A (1) + e B (2) where A (1) and B (2) are observables in their corresponding spaces, with the following eigenvalues and eigenvectors A (1) xi n (1) = anxi n (1) ; i = 1, 2, . . . , gn ; xi n (1) ∈ V1 B (2) yk m (2) = bmyk m (2) ; k = 1, 2, . . . , hm ; yk m (2) ∈ V2 we have seen that e A (1) and e B (2) commute, so they should have a commom basis of eigenvectors in V . This basis is precisely, the tensor product of their eigenvectors e A (1) h xi n (1) ⊗ yk m (2) i = an h xi n (1) ⊗ yk m (2) i e B (2) h xi n (1) ⊗ yk m (2) i = bm h xi n (1) ⊗ yk m (2) i and they are also eigenvectors of C = e A (1) + e B (2) h e A (1) + e B (2) i h xi n (1) ⊗ yk m (2) i = (an + bm) h xi n (1) ⊗ yk m (2) i C h xi n (1) ⊗ yk m (2) i = cnm h xi n (1) ⊗ yk m (2) i ; cnm = an + bm So that if C = e A (1) + e B (2) the eigenvalues of C are the sums of the eigenvalues of e A (1) and e B (2). Besides, we can form a basis of eigenvectors of C by taking the tensor product of the basis of A (1) and B (2). It is important to emphasize that even if an and bm are non-degenerate, it is posible that cnm be dege- nerate. Assume that an and bm are non-degenerate, and for a given cnm let us define all the sets of pairs
  • 156.
    74 CAPÍTULO 1.LINEAR OR VECTOR SPACES {(nj, mj) : j = 1, . . . , q} such that anj + bmj = cnm. In that case, the eigenvalue cnm is q−fold degenerate, and every eigenvector corresponding to this eigenvalue can be written as q X j=1 cj xnj (1) ⊗ ymj (2) in this case there are eigenvectors of C that are not tensor products. 1.32.4. Complete sets of commuting observables in tensor product spaces For simplicity assume that A (1) forms a C.S.C.O. by itself in V1, while {B (2) , C (2)} constitute a C.S.C.O. in V2. We shall show that by gathering the operators of the C.S.C.O. in V1 with the operators of C.S.C.O. in V2, we form a C.S.C.O. in V with their corresponding extensions. Since A (1) is a C.S.C.O. in V1, all its eigenvalues are non-degenerate in V1 A (1) xn (1) = anx (1) the ket x (1) is then unique within a constant factor. In V2 the set of two operators {B (2) , C (2)} defines commom eigenvectors {ymp (2)} that are unique in V2 within constant factors B (2) ymp (2) = bmymp (2) ; C (2) ymp (2) = cpymp (2) In V , the eigenvalues are N2−fold degenerate. Similarly, there are N1 linearly independent eigenvectors of B (2) and C (2) associated with two given eigenvalues of the form (bm, cp). However, the eigenvectors that are common to the three commuting observables e A (1) , e B (2) , e C (2) are unique within constant factors e A (1) [xn (1) ⊗ ymp (2)] = an [x (1) ⊗ ymp (2)] e B (2) [xn (1) ⊗ ymp (2)] = bm [x (1) ⊗ ymp (2)] e C (2) [xn (1) ⊗ ymp (2)] = cp [x (1) ⊗ ymp (2)] since {xn (1)} and {ymp (2)} were bases in V1 and V2, we see that {xn (1) ⊗ ymp (2)} is a basis in V constituted by commom eigenvectors of the three operators. Thus the set n e A (1) , e B (2) , e C (2) o is a C.S.C.O. in V . 1.33. Restrictions of an operator to a subspace It is useful in many applications to be able to restrict an operator to a certain subspace Vq of a given vector space V . Let us assume V = V1 ⊕ . . . ⊕ Vq ⊕ . . . x = x1 + . . . + xq + . . . ; xi ∈ Vi Projectors, which are the natural operators to “restrict” a vector by extracting the components that are ortho- normal to a given subspace, will be also the natural operators to rectrict operators. Let Pq be the projector onto a subspace Vq. A priori, we could think in defining a restriction by “restricting the vector” in which the operator will act on. This is done by substracting all components orthogonal to the subspace Vq by applying a projection, and then let the operator A act on this projection so we have A = APq ⇒ Ax = APqx = Axq
  • 157.
    1.34. FUNCTIONS OFOPERATORS 75 in this case we have restricted the domain of A appropriately, but once the operator A is applied, the image could be outside of the subspace too. Hence, the projector must be applied again after the application of A in order to restrict the image appropriately. We then define the restriction b A of the operator A to the subspace Vq as b Aq ≡ PqA = PqAPq (1.129) so that both the domain and the range are restricted to Vq. It can be easily checked that the matrix representation of b Aq is reduced to a submatrix in the Vq space. Let qk be the dimension of Vq. Let us use an ordered basis such that the first qk terms expand Vq. Using such a basis we have b Aq ij = ui, b Aquj = (ui, PqAPquj) = (Pqui, APquj) (Pqui, APquj) = (ui, Auj) if i, j ≤ qk 0 if i qk and/or j qk observe that the submatrix associated with i, j ≤ qk (i.e. associated with the Vq subspace), remains the same with respect to the non-restricted matrix. But the elements outside of such a submatrix are zeros, showing that the new operator only acts in Vq. It is important to emphasize that the restriction b Aq of an operator A differs from A itself, because we are changing the mapping. In the special case in which the subspace Vq is invariant under A, the range of A is automatically restricted into Vq when the domain is restricted to Vq. Thus in that case the restriction can be defined with only one projector operator b Aq ≡ APq so when Vq is invariant under A the mapping described by b Aq is identical to the mapping described by A when such mappings are restricted to the domain Vq. 1.34. Functions of operators Let A be an arbitrary operator. The operator An with n being a non-negative integer is easily defined as A0 ≡ I , An = AA · · · A (n times) similarly for negative integers a consistent definition is A−n ≡ A−1 n with AA−1 = A−1 A = I it is useful to define functions of operators. Assume that a function F can be expanded in certain domain in the following way F (z) = ∞ X n=0 fnzn (1.130) by definition, the function F (A) of the operator A corresponds to an expansion of the form (1.130) with the same coefficients fn F (A) = ∞ X n=0 fnAn (1.131) for instance, the function eA of the operator A reads eA = ∞ X n=0 An n! = I + A + A2 2! + A3 3! + . . .
  • 158.
    76 CAPÍTULO 1.LINEAR OR VECTOR SPACES the convergence of series of the type (1.131) depends on the eigenvalues of A and the radius of convergence of the function (1.130). We shall not treat this topic in detail. If F (z) is a real function the coefficients fn are real. On the other hand, if A is hermitian then F (A) also is, as can be seen from (1.131). Owing to the analogy between real numbers and hermitian operators this relation is quite expected. Now, assume that xi,k is an eigenvector of A with eigenvalue ai we then have Axi,k = aixi,k ⇒ An xi,k = an i xi,k and applying the eigenvector in Eq. (1.131) we find F (A) xi,k = ∞ X n=0 fnan i xi,k = xi,k ∞ X n=0 fnan i F (A) xi,k = F (ai) xi,k so that if xi,k is an eigenvector of A with eigenvalue ai, then xi,k is also eigenvector of F (A) with eigenvalue F (ai). On the other hand, if the operator is diagonalizable (this is the case for observables), we can find a basis in which the matrix representative of A is diagonal with the eigenvalues ai in the diagonal. In such a basis, the operator F (A) has also a diagonal representation with elements F (ai) in the diagonal. For example let σz be an operator that in certain basis has the matrix representation σz = 1 0 0 −1 in the same basis we have eσz = e1 0 0 e−1 = e 0 0 1/e if A and B do not commute, we have that in general the operators F (A) and F (B) do not commute either. For instance eA eB = ∞ X n=0 An n! ∞ X m=0 Bm m! = ∞ X n=0 ∞ X m=0 An n! Bm m! (1.132) eB eA = ∞ X m=0 Bm m! ∞ X n=0 An n! = ∞ X m=0 ∞ X n=0 Bm m! An n! (1.133) eA+B = ∞ X n=0 (A + B)n n! (1.134) these three expressions are in general different from each other unless [A, B] = 0. We see by direct inspection of Eqs. (1.132, 1.133, 1.134) that if A and B commute, then F (A) and F (B) also do. Notice that when A, B commute they can be diagonalized simultaneously and so F (A) and F (B), which is another way to see that if [A, B] = 0 then [F (A) , F (B)] = 0. 1.34.1. Some commutators involving functions of operators Theorem 1.70 Suppose we have two operators A and B such that B commutes with their commutator, that is [B, C] = 0 ; C ≡ [A, B] (1.135) if F (B) is a function of the operator B then we have [A, F (B)] = [A, B] F′ (B) (1.136)
  • 159.
    1.35. DIFFERENTIATION OFOPERATORS 77 where F′ (B) is the derivative of F (B) “with respect to B” defined as F (B) = ∞ X n=0 fnBn ⇒ F′ (B) ≡ ∞ X n=0 nfnBn−1 (1.137) Proof: The commutator [A, F (B)] is given by [A, F (B)] = A, ∞ X n=0 fnBn # = ∞ X n=0 fn [A, Bn ] (1.138) we show by induction that [A, Bn ] = [A, B] nBn−1 (1.139) for n = 0 we have Bn = I and both sides clearly vanish. Now let us assume that it works for n and show that it is satisfied by n + 1. Applying Eq. (1.41), and taking into account Eqs. (1.139, 1.135) we have A, Bn+1 = [A, BBn ] = [A, B] Bn + B [A, Bn ] = [A, B] BBn−1 + B [A, B] nBn−1 = CBBn−1 + BCnBn−1 = CBn + nCBBn−1 = C (n + 1) Bn A, Bn+1 = [A, B] (n + 1) Bn which shows the validity of Eq. (1.139). Replacing Eq. (1.139) in Eq. (1.138), we find [A, F (B)] = [A, B] ∞ X n=0 fnnBn−1 = [A, B] F′ (B) Corollary 1.71 It is straightforward to show that if both operators commute with their commutator we see that equations [A, F (B)] = [A, B] F′ (B) ; [G (A) , B] = [A, B] G′ (B) (1.140) are satisfied simultaneously. A very important case in Physics occurs when [A, B] = αI. In that case, we have [A, B] = αI ⇒ [A, F (B)] = αF′ (B) ; [G (A) , B] = αG′ (B) (1.141) 1.35. Differentiation of operators Let A (z) an operator that depends on the arbitrary variable z. We define the derivative of A (z) with respect to z as dA dz = lı́m ∆z→0 A (z + ∆z) − A (z) ∆z (1.142) provided that this limit exists. Operating A on an arbitrary vector x and using a basis {ui} independent of z, we have A (z) x = A (z) xiui = xiA (z) ui = xiujAji (z) (1.143) since dA/dz is another operator, it makes sense to talk about its matrix representation dA (z) dz x = dA (z) dz xiui = xi dA (z) dz ui = xiuj dA (z) dz ji (1.144) Applying the derivative on both extremes of Eq. (1.143), and taking into account that the basis {ui} is independent of z, we have d dz A (z) x = xiuj dAji (z) dz (1.145)
  • 160.
    78 CAPÍTULO 1.LINEAR OR VECTOR SPACES comparing Eqs. (1.144, 1.145) we obtain dA (z) dz ji = dAji (z) dz so the matrix representative of the derivative of A is obtained by taking the derivative of each of its elements12. The differentiation rules are similar to the ones in ordinary calculus d dz (F + G) = dF dz + dG dz ; d dz (FG) = dF dt G + F dG dt (1.146) except that care must be taken with the order of appearance for the operators involved. Let us examine the second of this equations, applying FG to an arbitrary vector x and using a basis {ui} we have (FG) x = xiuj (FG)ji taking the derivative on both sides we have d (FG) dz ji = d dz (FG)ji = d dz [FjkGki] = d dz Fjk Gki + Fjk d dz Gki = dF dz jk Gki + Fjk dG dz ki # in matrix form we see that d (FG) dz = dF dz G + F dG dz since there is a one-to-one isomorphism from the operators onto the matrices, we see that this relation is also valid for the operators. 1.35.1. Some useful formulas Applying the derivation rules we can develop some identities for functions of operators. Let us calculate the derivative of the operator eAt. By definition we have eAt = ∞ X n=0 (At)n n! differentiating the series term by term we have d dt eAt = ∞ X n=0 ntn−1 An n! = 0 + ∞ X n=1 ntn−1 An n! = A ∞ X n=1 (At)n−1 (n − 1)! d dt eAt = A ∞ X k=0 (At)k k! # = ∞ X k=0 (At)k k! # A where we have used the assignment k = n − 1. The series in the brackets is eAt once again, so we have d dt eAt = AeAt = eAt A (1.147) 12 Care must be taken to distinguish between the derivative in Eq. (1.137) and the derivative in Eq. (1.142). In Eq. (1.137) the derivative is taken with respect to B as the “variable of derivation”. On the other hand, in Eq. (1.142) the variable to derive with, is a parameter z from which our matrix depend on.
  • 161.
    1.36. STATE SPACEAND DIRAC NOTATION 79 in this case eAt and A commutes because only one operator is involved. Suppose that we want to differentiate eAteBt. Applying Eqs. (1.146, 1.147) we have d dt eAt eBt = d eAt dt eBt + eAt d eBt dt = AeAt eBt + eAt BeBt the operator A can pass over eAt if desired but not over eBt unless that A and B commute. Similarly, B can pass over eBt but not over eAt. However, even if a single operator appears we should be careful with the order sometimes. For instance, if A (t) is an arbitrary function of time then d dt eA(t) 6= dA dt eA(t) (1.148) it could be checked that A (t) and dA (t) /dt must commute with each other for the equality to be valid. Consider again two operators that commute with their commutator, we shall show that [A, [A, B]] = [B, [A, B]] = 0 ⇒ eA eB = eA+B e 1 2 [A,B] (Glauber′ s formula) (1.149) let define F (t) with t real as F (t) ≡ eAt eBt ; dF (t) dt = AeAt eBt + eAt BeBt = A eAt eBt + eAt Be−At eAt eBt dF (t) dt = A + eAt Be−At F (t) (1.150) since A, B commute with their commutator, we can apply Eq. (1.140), so that eAt , B = t [A, B] eAt ⇒ eAt B = BeAt + t [A, B] eAt ⇒ eAt Be−At = B + t [A, B] substituting this expression in Eq. (1.150) we get dF (t) dt = {A + B + t [A, B]} F (t) (1.151) by hypothesis, A+B commutes with [A, B], so that the differential equation (1.151) can be integrated as if A+B and [A, B] were numbers F (t) = F (0) e(A+B)t+ 1 2 [A,B]t2 setting t = 0 we see that F (0) = I, thus we obtain F (t) = e(A+B)t+ 1 2 [A,B]t2 setting t = 1 and taking into account again that A + B commutes with [A, B], we obtain (1.149). It is necessary to emphasize that this equation is valid only if A and B commutes with [A, B]. 1.36. State space and Dirac notation We have defined the space of Physical states as the one constituted by functions ψ (r) square-integrable in a given volume. The space with these characteristics is denoted by L2, but since in general with add some requirements to these functions, we actually work in a subspace ̥ ⊆ L2. On the other hand, we have seen that several bases can be constructed to represent those functions. Therefore, the Physical system will be described by either the functions ψ (r) or by the sete of its coordinates in a given representation. When the representation
  • 162.
    80 CAPÍTULO 1.LINEAR OR VECTOR SPACES is discrete we have a numerable set of coordinates (Fourier coefficients) while in the case of continuous bases, the set of coordinates is continuous as well (Fourier transforms). In particular, the continuous basis denoted as ξr0 (r) shows that the function ψ (r) can be considered as a coordiante system as well, because in this basis, each coordinate is defined as ψ (r0) i.e. the value of ψ at each fixed point r0 of the volume13. We have now a situation similar to the one obtained in R3, we can define a vector by a triple of coordinates in any basis defined by a set of coordinate axes. However, vectors in R3 can be defined geometrically (intrinsically), and its algebra can be performed in a coordinate-free form. In the same way, we wish to define our state vector in a coordinate free (or intrinsic) way. The abstract space of state vectors of a particle is denoted as Er which should be isometrically isomorphic with ̥. We should also define the notation and algebra on the Er space. Though we initially start with Er as identical to ̥, we shall see that it permits a generalization of the formalism when the states in ̥do not contain all the Physical information of the system, as is the case when spin degrees of freedom are introduced in the formalism. Hence, the algebra that we shall develop now will be valid when these generalizations are carried out. In developing this algebra we are going to present the Dirac notation which is useful in practical calculations 1.37. Dirac notation We are going to establish a one-to-one correspondence between the states of ̥ and the states of Er, though the latter will be extended later. Thus to every square-integrable function ψ (r) in ̥ we make to correspond an abstract vector in Er in the form ψ (r) ↔ |ψi an abstract vector in the notation |ψi will be called a ket. Notice that no r−dependence appears in |ψi. Indeed, ψ (r) is interpreted in this framework as a representation of |ψi in which each ψ (r) is a coordinate in the basis given by ξr (r′). Therefore, r plays the role of index (three continuous indices) for the particular basis used. The space of states of a particle in one dimension is denoted as Ex, while in three dimensions is Er. 1.37.1. Elements of the dual or conjugate space E∗ r In section 1.9.2 we defined a one-to-one correspondence between vectors (kets) of a Hilbert space and functionals (bras) in the conjugate (dual) space in the following way (see Eqs. 1.29, 1.30) |ψi ↔ f|ψi ; f|ψi (|ϕi) ≡ (|ψi , |ϕi) Dirac notation designates f|ψi as hψ| which is called a bra. The correspondence above and the inner product will be written as |ψi ∈ Er ↔ hψ| ∈ E∗ r ; hψ| (|ϕi) ≡ (|ψi , |ϕi) it induces a natural notation for the inner product ((|ψi , |ϕi)) ≡ hψ| ϕi this is also called a bracket (i.e. the union of a bra with a ket). Let us now write the properties developed in section 1.9.2 Eq. (1.31), with this new notation fα|ψi+β|ϕi = α∗ f|ψi + β∗ f|ϕi α |ψi + β |ϕi ∈ Er ↔ α∗ hψ| + β∗ hϕ| ∈ E∗ r 13 Notice that this is a simple way of defining an scalar field. A scalar field is completely delimited by defining its value at each point of the space in which the field is defined (at a given time). In this case the number of coordinates is cleraly the number of points in our space.
  • 163.
    1.37. DIRAC NOTATION81 which is consistent with the properties of the inner product (α |ψi + β |ϕi , |χi) = (α∗ hψ| + β∗ hϕ|) |χi ⇒ hαψ + βϕ| χi = α∗ hψ| χi + β∗ hϕ| χi since the functionals (bras) are linear by definition, a linear combination of kets gives f|ψi (α |ϕi + β |χi) ≡ αf|ψi (|ϕi) + βf|ψi (|χi) in Dirac notation it reads hψ| αϕ + βχi = α hψ| ϕi + β hψ| χi from these facts it is clear that for any scalar α |αψi = α |ψi ; hαψ| = α∗ hψ| (1.152) now since (|ψi , |ϕi) = (|ϕi , |ψi)∗ ⇒ hψ| ϕi = hϕ| ψi∗ 1.37.2. The correspondence between bras and kets with hyperbases We have seen that hyperbases are sets of elements from which any element of the space can be expanded despite those elements do not belong to the space under study. On the other, hand we have seen that the correspondence between vectors and functionals (kets and bras) is one-to-one and onto. However, when hyperbases are used we shall see that some linear functionals (bras) can be well-defined while there is not a well-defined corresponding vector (ket) Assume for example that we have a ket in ̥ given by a sufficiently regular function ξ (ε) x0 (x) such that Z ∞ −∞ dx ξ(ε) x0 (x) = 1 with the form of a peak of height ∼ 1/ε and width ∼ ε centered at x = x0. If ε 6= 0 then
  • 166.
  • 169.
    ∈ E∗ x be itsassociated bra. The idea is to have a function that conveeges to the Dirac delta function when ε → 0. For each |ψi ∈ Ex we have that hξ(ε) x0 |ψi = ξ(ε) x0 , ψ = Z ∞ −∞ dx ξ(ε) x0 (x) ψ (x) (1.153) now we let ε to approach zero, and we find that lı́m ε→0 ξ(ε) x0 / ∈ ̥x since the square of its norm tend to 1/ε and diverges. Nevertheless, in the limit ε → 0 the expression (1.153) is still well-defined, so that D ξ (ε) x0
  • 172.
    is still associatedwith a functional that can be applied to any element of the state space, we shall denote this bra as hξx0 | and this functional associates with each vector |ψi ∈ Ex the value ψ (x0) taken on by the associated wave function in ̥x at the point x0 lı́m ε→0 D ξ(ε) x0
  • 175.
    = hξx0 |∈ E∗ x if |ψi ∈ Ex ⇒ hξx0 | ψi = ψ (x0) then the bra hξx0 | ∈ E∗ x exists but there is not a ket associated with it in the hyperbasis.
  • 176.
    82 CAPÍTULO 1.LINEAR OR VECTOR SPACES This dissymetry is associated with the use of a hyperbasis. The elements of the hyperbasis do not belong to ̥x and so has no elements associated in Ex either. However, the inner product of it with any element of ̥x is well-defined and it permits to associate a bra belonging to E∗ x. Indeed, by the theory of Hilbert spaces the corresponding ket must exists, what really happens is that we cannot construct it as an element of our hyperbasis, this is perfectly undestandable since such elements are out of our Hilbert space. Notice that we have indeed extended the concept of inner product and we have applied it to elements out of our Hilbert space. For practical reasons it is usual to associate the bras hξx0 | ∈ E∗ x to the “generalized ket” |ξx0 i that are not physical states but are advantageous from the practical point of view. Another example is the continuous basis consisting of plane waves truncated outside an interval of width L v(L) p0 (x) = 1 √ 2π~ eip0x/~ ; − L 2 ≤ x ≤ L 2 with the function v (L) p0 (x) going rapidly to zero outside of that interval, but keeping continuity and differentiability. The ket associated is denoted as
  • 179.
  • 182.
    v(L) p0 E ∈ Ex the squareof the norm is ∼ L/2π~, diverges if L → ∞. Therefore lı́m L→∞
  • 185.
    v(L) p0 E / ∈ Ex now weconsider the limit of the bra D v (L) p0
  • 188.
  • 191.
    v (L) p0 E and applied toan arbitrary vector |ψi ∈ Ex D v(L) p0
  • 194.
    ψi = v(L) p0 , ψ ≃ 1 √ 2π~ ZL/2 −L/2 dx e−ip0x/~ in the limit L → ∞ we find ψ̄ (p0) i.e. the Fourier transform of ψ (x) evaluated at p = p0. From which we see that the inner product converges and is well-defined lı́m L→∞ D v(L) p0
  • 197.
    ≡ hvp0 |∈ E∗ x but it does not correspond to the ket associated with the limit of kets of the form
  • 200.
    v (L) p0 E . We could takethe results above with the following point of view, the ket |ξx0 i means the ket given by
  • 203.
    ξ (ε) x0 E with ε muchsmaller than any other length involved in the problem, so we are really working in Ex. The results obtained at the end depends very little on ε as long as it is much smaller than any other length in the problem. Certainly,
  • 206.
    ξ (ε) x0 E does not forman orthonormal basis, and do not satisfy a closure realtion with ε 6= 0, but it aproaches the orthonormality and closure conditions as ε becomes very small. The introduction of generalized kets, will ensure that we balance bras and kets in the limits concerned above. Generalized kets do not have finite norm, but they can acquire a finite inner product with kets of our space of states. 1.38. The action of linear operators in Dirac notation Linear operators are characterized easily in Dirac notation
  • 208.
  • 210.
    ψ′ ∈ Ex A (α|ψi + β |ϕi) = αA |ψi + βA |ϕi
  • 211.
    1.38. THE ACTIONOF LINEAR OPERATORS IN DIRAC NOTATION 83 the product of operators writes AB |ψi = A (B |ψi) it is also important to calculate the inner product between |ϕi and |ψ′i = A |ψi in the form |ϕi ,
  • 213.
    ψ′ = (|ϕi ,A |ψi) = hϕ| (A |ψi) this is usually denoted simply as hϕ| (A |ψi) ≡ hϕ| A |ψi 1.38.1. Projectors The simplest of all projectors are the ones in which the range are one dimensional subspaces of the Hilbert space. Let {|ψi} be the one dimensional space spanned by the single non-zero ket |ψi. The projector P|ψi takes an arbitrary ket |ϕi ∈ Ex and maps it into {|ψi} i.e. P|ψi |ϕi = α |ψi ; α ≡ hψ| ϕi in Dirac notation it could be written as P|ψi ≡ |ψi hψ| ; P|ψi |ϕi = (|ψi hψ|) |ϕi = |ψi hψ| ϕi = α |ψi (1.154) the most important property of a projector is the idempotence so that P2 |ψi ≡ (|ψi hψ|) (|ψi hψ|) = |ψi hψ| ψi hψ| = P|ψi ⇒ hψ| ψi = 1 so the definition of P|ψi Eq. (1.154) as a projector is consistent only if |ψi is normalized. Now we can write the projector onto a subspace of more than one dimension. If nj is the dimension of the subspace M (nj) j ⊆ Ex we can define the projector from a complete orthonormal set
  • 215.
    ui j ; i =1, .., nj (1.155) that spans such a subspace Ex = M (n1) 1 ⊕ . . . ⊕ M (nj) j ⊕ . . . x = x1 + . . . + xj + . . . x = n1 X i=1 α (1) i ui 1 + . . . + nj X i=1 α (j) i ui j + . . . α (n) k ≡ uk n, x PMj x = xj = nj X i=1 α (j) i ui j PMj x = nj X i=1 ui j, x ui j in Dirac notation it is PMj |xi = nj X i=1 hui j |xi
  • 217.
  • 219.
  • 221.
  • 222.
    84 CAPÍTULO 1.LINEAR OR VECTOR SPACES thus a direct notation for the projector is PMj ≡ nj X i=1
  • 224.
  • 226.
    (1.156) it is clearthat this is a projector as long as Eq. (1.155) defines an orthonormal set that spans M (nj) j of dimension nj. P2 Mj = nj X i=1
  • 228.
  • 230.
  • 233.
  • 236.
  • 238.
  • 241.
  • 244.
  • 246.
  • 249.
  • 251.
  • 253.
    = PMj If wehave an observable A, its spectrum of eigenvectors forms a basis and we can construct a complete orthonormal set. In that case, the spectral theorem (assuming it can be extended to infinite dimension for observables) says that the identity and the observable A itself can be decomposed by means of the projectors built on each eigensubspace of the observable, if Mi is the eigensubspace generated by the eigenvalue λi of A we have that Ex = M1 ⊕ . . . ⊕ Mi ⊕ . . . x = x1 + . . . + xi + . . . Pix = xi in Dirac notation we have Pi = ni X j=1
  • 256.
  • 259.
    the spectral theoremsays that ∞ X i=1 Pi = ∞ X i=1 ni X j=1
  • 262.
  • 265.
    = I (1.157) ∞ X i=1 λiPi= ∞ X i=1 ni X j=1 λi
  • 268.
  • 271.
    = A (1.158) theseforms will be applied frequently in quantum mechanics. Notice that Eq. (1.157) is valid if and only if n uj i o is a complete orthonormal set. Thus the decomposition of the identity in projectors is usually taken as the closure relation for the basis (or hyperbasis) in which we are working. It is also usual to work with a more general type of projector of the form P = |ψi hϕ| (1.159) applying an arbitrary vector on it we find |ψi hϕ| χi = α |ψi ; α ≡ hϕ| χi this is a projector on the one dimensional subspace {|ψi}. This operator is idempotent only if hϕ| is normal, however it defines a non-orthogonal projection, since we shall see later that this operator is not self-adjoint or hermitian.
  • 272.
    1.39. HERMITIAN CONJUGATION85 1.39. Hermitian conjugation We have defined the action of a linear operator on a ket. We see that it induces a natural action of the operator on the bra f|ϕi (A |ψi) = (|ϕi , A |ψi) ≡ gA|ϕi (|ψi) ∀ |ψi ∈ Ex (1.160) the definition of the new functional gA|ϕi from a given f|ϕi and a given A is written in Dirac notation as14 f|ϕi ≡ hϕ| A → gA|ϕi ≡ hϕ| A (1.161) and Eq. (1.160) is written as hϕ| (A |ψi) = (hϕ| A) (|ψi) (1.162) so it is written simply as hϕ| A |ψi we should check that g is indeed a functional i.e. that it is a continuous linear mapping of the vectors into the complex numbers, the basic properties of functionals are reproduced gαA|ϕi+βA|χi (ψ) = α∗ gA|ϕi (|ψi) + β∗ gA|χi (|ψi) gA|ϕi (α |ψi + β |χi) = αgA|ϕi (|ψi) + βgA|ϕi (|χi) Further, the association (1.161) is linear, to see it, we write a linear combination of bras hϕ| = λ1 hϕ1| + λ2 hϕ2| which means that hϕ| ψi = λ1 hϕ1| ψi + λ2 hϕ2| ψi ; ∀ |ψi ∈ Ex then (hϕ| A) (|ψi) = hϕ| (A |ψi) = (λ1 hϕ1| + λ2 hϕ2|) (A |ψi) = λ1 hϕ1| (A |ψi) + λ2 hϕ2| (A |ψi) = λ1 (hϕ1| A) |ψi + λ2 (hϕ2| A) |ψi since ψ is arbitrary we find hϕ| A = λ1 hϕ1| A + λ2 hϕ2| A notice that is different to start with a linear combination of kets from starting with a linear combination of bras, because the linear combination of a ket corresponds to a linear combination with conjugate coefficients in the bras (antilinearity). The order is important, the new bra induced from hϕ| by the operator A is written as hϕ| A and not in the form A hϕ|. For instance if we apply this relations to a ket the first expression hϕ| A |ψi is a complex number, while the second A hϕ| ψi = αA is another operator. 1.39.1. The adjoint operator A† in Dirac notation In Dirac notation we write |ψ′i = A |ψi ≡ |Aψi. We now want to know what is the corresponding bra |ψ′i ↔ hψ′| ≡ hAψ|. In mathematical notation the question is |ψi → f|ψi ;
  • 274.
    ψ′ = A |ψi≡ |Aψi ⇒
  • 276.
    ψ′ ? → f|ψ′i 14 Noticethat gA|ψi is a new functional induced from f|ϕi and A. Of course gA|ψi must be associated to some vector i.e. gA|ψi = f|χi for some |χi in our vector space, but it does not concern us. In particular, it is very important to observe that gA|ψi 6= fA|ψi.
  • 277.
    86 CAPÍTULO 1.LINEAR OR VECTOR SPACES to elucidate the answer we apply an arbitrary vector |ϕi to the functional we want to find fA|ψi (|ϕi) = f|ψ′i (|ϕi) = hψ′ |ϕi = hAψ| ϕi = hψ| A† ϕi where we have applied property (1.36). Now we apply property (1.162) to get f|ψ′i (|ϕi) = hψ|
  • 280.
    A† ϕ E = hψ| A† (|ϕi) since thisis valid for |ϕi arbitrary we find f|ψ′i ≡ ψ′
  • 282.
    = hψ| A† inDirac notation we have then
  • 284.
    ψ′ = A |ψi≡ |Aψi ψ′
  • 286.
    = hψ| A† ≡hAψ| notice that as before, the mapping of the dual space into itself is denoted with the operator defined on the right- hand side and not on the left15. Further by assigning A = λI and taking into account that A† = λ∗I we have that ψ′
  • 288.
    = hλψ| =hλIψ| = hψ| (λI)† = hψ| λ∗ I ⇒ hλψ| = λ∗ hψ| in agreement with Eq. (1.152). On the other hand since ψ′
  • 290.
    ϕi = hϕ|ψ′ i∗ we see that hψ| A† |ϕi = hϕ| A |ψi∗ (1.163) and we remember the most important properties of the adjoint operators (see Eqs. (1.35)) A† † = A , (αA + βB)† = α∗ A† + β∗ B† (1.164) (AB)† = B† A† (1.165) 1.39.2. Mathematical objects and hermitian conjugation in Dirac notation In general, the order of bras, kets and operators is of major importance, the only objects we can put in any order are scalars, for instance the mathematical objects λ hϕ| B |ψi ; λ hψ| B |ϕi ; λ hψ| ϕiB ; λ |ψi hϕ| B (1.166) are all distinct each other, the first and second are complex numbers, while the last two are operators, as can be verified by applying an arbitrary vector on the right-hand side of these objects. However, expressions like λ |ψi hϕ| B ; |ψi λ hϕ| B ; |ψi hϕ| λB ; |ψi hϕ| Bλ are all equal, indeed we could think about the multiplication by a scalar as equivalent to the operator λI which commutes with everything. 15 Stricktly speaking, a mapping of the dual (or conjugate) space into itself is carried out by the conjugate operator instead of the adjoint operator since the latter maps the Hilbert space into itself and not the dual. Notwithstanding, from the practical point of view this subtlety is irrelevant.
  • 291.
    1.39. HERMITIAN CONJUGATION87 We shall now define a useful operation that we call hermitian conjugation. Our basic objects are kets, bras, operators and scalars. In general words, hermitian conjugations are mappings induced by the existence of the dual E∗ of our Hilbert space E. A ket |ψi ∈ E is naturally mapped into a bra hψ| ∈ E∗. A bra hψ| ∈ E∗ is naturally mapped into an element of the conjugate space of E∗, i.e on E∗∗. However, for Hilbert spaces it can be shown that E∗∗ = E hence the bra is mapped into its corresponding ket16. An operator A in ß(E) is mapped naturally into the conjugate vector A∗ in ß(E∗) but the inner product structure permits in turn to define another operator A† in ß(E) from A∗ and from the practical point of view we regard A∗ and A† as identical. Thus the hermitian conjugation in this case will be the mapping A → A†. Now finally for scalars. Taking into account that for all practical uses scalars λ can be considered as operators in ß(E) of the form λI we see that the natural hermitian conjugation gives λI → (λI)† = λ∗. Therefore, the natural conjugation operation is λ → λ∗. We notice now that the hermitian conjugation reverses the order of the objects to which it is applied. We have seen that (A |ψi)† = hψ| A†, Eq. (1.165) shows that the order of a product of operators is reversed when we apply the “adjointness” (or hermitian conjugation) on that product, when scalars are involved the place in which scalars are located is irrelevant. By the same token, let us see what is the conjugate of the non orthogonal projection defined in (1.159) P = |ψi hϕ| ; P† = (|ψi hϕ|)† applying Eq. (1.163) we find hχ| (|ψi hϕ|)† |ηi = [hη| (|ψi hϕ|) |χi]∗ = hη| ψi∗ hϕ| χi∗ = hχ| ϕi hψ| ηi hχ| (|ψi hϕ|)† |ηi = hχ| (|ϕi hψ|) |ηi ; ∀ |ηi , |χi ∈ E then we have (|ψi hϕ|)† = |ϕi hψ| (1.167) once again, the hermitian conjugation converts each object in its hermitian conjugate and reverse the order of such objects. These observations permit to give a rule to obtain the hermitian conjugate of a mathematical object composed by a juxtaposition of bras, kets, operators and scalars. The rule is (a) replace each object by its hermitian conjugate |ψi → hψ| , hϕ| → |ϕi , A → A† , λ → λ∗ and (b) reverse the order of the factors, taking into account that the position of the scalars are not relevant. The hermitian conjugate of the objects defined in (1.166) are given by [λ hϕ| B |ψi]† = hψ| B† |ϕi λ∗ = λ∗ hψ| B† |ϕi = [λ hϕ| B |ψi]∗ [λ hψ| B |ϕi]† = hϕ| B† |ψi λ∗ = λ∗ hϕ| B† |ψi = [λ hψ| B |ϕi]∗ [λ hψ| ϕiB]† = B† hϕ| ψiλ∗ = λ∗ hϕ| ψiB† = (λ hψ| ϕi)∗ B† [λ |ψi hϕ| B]† = B† |ϕi hψ| λ∗ = λ∗ B† |ϕi hψ| = λ∗ B† [|ψi hϕ|]† in the first two expressions the original mathematical objects are scalars and hence the hermitian conjugates are also scalars (the complex conjugates of the original scalars). In the third expression the original object is an operator and its hermitian conjugate is also an operator (the adjoint of the original operator). In the fourth expression, the original object is a product of two operators and a scalar (a scalar times a projection times the operator B) and the adjoint is the product of the scalar and adjoint of each of the operators in reverse order. In 16 In Banach spaces, the property B∗∗ = B is called reflexibity and is not in general satisfied. For Hilbert spaces, reflexibity is automatic from which we can assign the dual element of a dual element to the original vector. This is another satisfying property of Hilbert spaces, not accomplished by general Banach spaces.
  • 292.
    88 CAPÍTULO 1.LINEAR OR VECTOR SPACES each case, the scalars are located in the most convenient place since their positions are unimportant. Indeed, we can put the conjugate of the scalars in any place, for instance in the case [λ |χi hψ| B |ϕi]† = [λ hψ| B |ϕi |χi]† = λ∗ hψ| B |ϕi∗ hχ| that coincides with the rules when we take into account Eq. (1.163). It is important to see that according to (1.167) the projectors given by (1.154) are hermitian, thus according to theorem 1.44, they are orthogonal projectors (i.e. projectors in the sense of a Hilbert space), this in turn says that the sums in (1.156) are also orthogonal projectors (see theorem 1.50). On the other hand, the projectors described by (1.159) with |ϕi 6= |ψi are non-hermitian and consequently they are non-orthogonal projections. 1.40. Theory of representations of E in Dirac notation For most of our purposes we shall use a representation with respect to orthonormal bases. The particular problem suggests the particular basis to work with. Most of the developments here are not new but gives us a very good opportunity of using the Dirac notation and be aware of its great advantages as a tool for calculations. We are going to describe the representation theory in both discrete and continuous bases. 1.40.1. Orthonormalization and closure relation In Dirac notation, the orthonormality of a set of discrete {|uii} or continuous {|wαi} orthonormal kets is expressed by hui |uji = δij ; hwα |wα′ i = δ α − α′ we emphasize once again that hwα |wαi diverges so that |wαi does not have a bounded norm and thus it does not belong to our state space. We call |wαi generalized kets because they can be used to expand any ket of our state space. A discrete set {ui} or a continuous one {wα} constitutes a basis if each ket |ψi of our state space can be expanded in a unique way on each of these sets |ψi = X i ci |uii ; |ψi = Z dα c (α) |wαi (1.168) the problem is considerably simplified if we asume that the bases are orthonormal, because in that case we can extract the coefficients by applying a bra huk| or hwα′ | on both sides of these equations huk |ψi = huk| X i ci |uii ; hwα′ |ψi = hwα′ | Z dα c (α) |wαi huk |ψi = X i ci huk| uii = X i ciδki = ck hwα′ |ψi = Z dα c (α) hwα′ | wαi = Z dα c (α) δ α − α′ = c α′ from which we obtain the familiar result ck = huk |ψi ; c α′ = hwα′ |ψi (1.169) replacing the Fourier coefficients (1.169) in the expansions (1.168) we find |ψi = X i hui |ψi |uii = X i |uii hui |ψi = X i |uii hui| ! |ψi |ψi = Z dα hwα |ψi |wαi = Z dα |wαi hwα |ψi = Z dα |wαi hwα| |ψi
  • 293.
    1.40. THEORY OFREPRESENTATIONS OF E IN DIRAC NOTATION 89 since this is valid for any ket |ψi ∈ E the operators in parenthesis must be the identity operator on E P{ui} ≡ X i |uii hui| = I ; P{wα} ≡ Z dα |wαi hwα| = 1 (1.170) we can reverse the steps and show that applying the identity in the form given by Eqs. (1.170) we obtain that any |ψi ∈ E must be a unique linear combination of {|uii} or {|wαi} |ψi = I |ψi = P{ui} |ψi = X i |uii hui| ! |ψi = X i |uii hui| ψi |ψi = X i ci |uii ; ci ≡ hui| ψi (1.171) |ψi = I |ψi = P{wα} |ψi = Z dα |wαi hwα| |ψi = Z dα |wαi hwα| ψi |ψi = Z dα c (α) |wαi ; c (α) ≡ hwα| ψi these facts show that Eqs. (1.170) manifest a closure relation in Dirac notation. This is consistent with our discussion in Sec. 1.38.1 that led to Eq. (1.157), in which we saw that each element of the form |uii hui| is a projector operator and Eqs. (1.170) are decompositions of the identity in projectors17. In other words, the projector given by the sums in (1.170) has the whole space as its range. In the case of the continuous basis, they are “hyperprojectors” but we shall call them projectors from now on. Hence the representation of a ket |ψi in a discrete basis is given by the set of its fourier coefficients {hui| ψi} it is usually written in matrix form as a column matrix |ψi =         hu1| ψi hu2| ψi . . . hui| ψi . . .         =         c1 c2 . . . ci . . .         the representation of a ket |ψi in a continuous basis is given by the set of its fourier transforms {hui| ψi} it is usually written in continuous matrix form as a column matrix |ψi =     . . . hwα| ψi . . .     =     . . . c (α) . . .     the representation of a bra can be obtain by the same insertion of the identity as follows hψ| = hψ| I = hψ| P{ui} = X i hψ| uii hui| hψ| = X i c∗ i hui| ; ci = hui| ψi 17 In Eq. (1.157) the lower index labels the eigenvalue and the upper index indicates the degree of degeneracy of the given eigenvalue. In Eq. (1.170) the single index runs over all different eigenvectors.
  • 294.
    90 CAPÍTULO 1.LINEAR OR VECTOR SPACES which can also be obtained by taking the hermitian conjugation of Eq. (1.171) and applying (1.152). For continuous basis the process is similar hψ| = hψ| I = hψ| P{wα} = Z dα hψ| wαi hwα| hψ| = Z dα c∗ (α) hwα| ; c (α) = hwα| ψi in matrix notation the bra is represented as a one row matrix of the coefficients, in both the discrete and continuous cases hψ| = hψ| u1i hψ| u2i · · · hψ| uii · · · hψ| = c∗ 1 c∗ 2 · · · c∗ 3 · · · hψ| = · · · c∗ (α) · · · by comparing the representation of the corresponding ket |ψi we see that the representation of the bra is obtained by transposing the matrix representative of the ket (i.e. converting the column in a row) and taking the conjugate of each element. Let us reproduce the inner product expressions (1.107) and (1.114) by insertion of the identity with projectors hϕ| ψi = hϕ| I |ψi = hϕ| P{ui} |ψi = X i hϕ| uiihui |ψi hϕ| ψi = X i b∗ i ci ; bi = hui| ϕi ; ci = hui |ψi hϕ| ψi = hϕ| I |ψi = hϕ| P{wα} |ψi = Z dα hϕ| wαihwα |ψi hϕ| ψi = Z dα b∗ (α) c (α) ; b (α) = hwα| ϕi ; c (α) = hwα |ψi in matrix form we can see the inner product as the product of a row vector times a column vector hϕ| ψi = b∗ 1 b∗ 2 · · · b∗ 3 · · ·         c1 c2 . . . ci . . .         = X i b∗ i ci in continuum form we have hϕ| ψi = · · · b∗ (α) · · ·     . . . c (α) . . .     = Z dα b∗ (α) c (α) and the norms are obtained with ϕ = ψ i.e. bi = ci or b (α) = c (α) hψ| ψi = kψk2 = X i |ci|2 = Z dα |c (α)|2
  • 295.
    1.40. THEORY OFREPRESENTATIONS OF E IN DIRAC NOTATION 91 1.40.2. Representation of operators in Dirac notation Let us see the representation of an operator A under a basis {ui} or {wα}. We have seen that a matrix representative of A under the basis {ui} is Aij = hui| Auji = hui| A |uji and in a continuous basis A α, α′ = hwα| A |wα′ i they are arranged in a square matrix with infinite countable or continuous numbers of columns and rows A =         A11 A12 · · · A1j · · · A21 A22 · · · A2j · · · . . . . . . . . . Ai1 Ai2 · · · Aij · · · . . . . . . . . .         A =     . . . · · · A (α, α′) · · · . . .     it is interesting to see the matrix representative of a product of operators by insertion of the identity (AB)ij = hui| AB |uji = hui| AIB |uji = hui| AP{ui}B |uji = X k hui| A |uki huk| B |uji (AB)ij = X k AikBkj which coincides with the algorithm for matrix multiplication developed in Sec. 1.14.1, Eq. (1.50). We can develop easily the matrix multiplication algorithm with continuum matrices (AB) (α, β) = hwα| AB |wβi = hwα| AIB |wβi = hwα| AP{ui}B |wβi (AB) (α, β) = Z dγ hwα| A |wγi hwγ| B |wβi (AB) (α, β) = Z dγ A (α, γ) B (γ, β) (1.172) now let us see the matrix representative of the ket |ψ′i given by A |ψi =
  • 297.
    ψ′ from the knowledgeof the components of |ψi and A, in a given representation {ui}. The coordinates of |ψ′i in this basis is c′ i = hui
  • 299.
    ψ′ = hui| A|ψi = hui| AI |ψi = hui| AP{ui} |ψi = X k hui| A |uki huk| ψi c′ i = X k Aikck
  • 300.
    92 CAPÍTULO 1.LINEAR OR VECTOR SPACES that explicitly can be illustrated as         c′ 1 c′ 2 . . . c′ i . . .         =         A11 A12 · · · A1j · · · A21 A22 · · · A2j · · · . . . . . . . . . Ai1 Ai2 · · · Aij · · · . . . . . . . . .                 c1 c2 . . . ci . . .         with a continuous basis {wα} we have c′ (α) = hwα| ψ′ i = hwα| A |ψi = hwα| AI |ψi = hwα| AP{wα} |ψi = Z dβ hwα| A |wβi hwβ |ψi c′ (α) = Z dβ A (α, β) c (β) which is the continuous extension of multiplication of a matrix with a column vector. Let us see the representation of the bra hψ| A hψ| A = hψ| IAI = X i X j hψ| uii hui| A |uji huj| = X i X j c∗ i Aij huj| Therefore, the bra hψ| A is represented by the product of the row matrix that represents hψ| times the square matrix representing A respecting the order hψ| A = c∗ 1 c∗ 2 · · · c∗ 3 · · ·         A11 A12 · · · A1j · · · A21 A22 · · · A2j · · · . . . . . . . . . Ai1 Ai2 · · · Aij · · · . . . . . . . . .         observe that the matrix product is not defined in the opposite order, thus we cannot give meaning to A hψ|. In many cases, it is also interesting to calculate the element hϕ| A |ψi in terms of the coordinates of the bra and the ket and in terms of the components of A. To do it, we insert an expansion of the identity twice hϕ| A |ψi = hϕ| IAI |ψi = hϕ| P{ui}AP{ui} |ψi = X i X j hϕ| uii hui| A |uji huj |ψi hϕ| A |ψi = X i X j b∗ i Aijcj ; bi = hui| ϕi, Aij = hui| A |uji , cj = huj |ψi which in matrix form is written as a bilinear form hϕ| A |ψi = b∗ 1 b∗ 2 · · · b∗ 3 · · ·         A11 A12 · · · A1j · · · A21 A22 · · · A2j · · · . . . . . . . . . Ai1 Ai2 · · · Aij · · · . . . . . . . . .                 c1 c2 . . . ci . . .         (1.173)
  • 301.
    1.41. CHANGE OFREPRESENTATIONS 93 this is the natural way of superposing the representations of hϕ|, A, and |ψi respecting the order. The result is of course a number. The extension for continuous bases is hϕ| A |ψi = hϕ| P{wα}AP{wβ} |ψi = Z dα Z dβ hϕ| wαi hwα| A |wβi hwβ |ψi and we obtain hϕ| A |ψi = Z Z dα dβ b∗ (α) A (α, β) c (β) b (α) = hwα| ϕi ; A (α, β) = hwα| A |wβi ; c (β) = hwβ |ψi notice that Eq. (1.162) expresses the associativity of the matrix expressions given by Eq. (1.173). Finally, the projection operator P = |ψi hψ| has matrix representative given by Pij = hui| P |uji = hui| ψihψ |uji = cic∗ j in matrix language it is written as |ψi hψ| =         c1 c2 . . . ci . . .         c∗ 1 c∗ 2 · · · c∗ 3 · · · =         c1c∗ 1 c1c∗ 2 · · · c1c∗ j · · · c2c∗ 1 c2c∗ 2 · · · c2c∗ j · · · . . . . . . . . . cic∗ 1 cic∗ 2 · · · cic∗ j · · · . . . . . . . . .         this representation is particularly simple when P = |uki huk| i.e. when the ket that forms the projector is part of the basis. The matrix representation of the adjoint operator is obtained by using property (1.163) A† ij = hui| A† |uji = huj| A |uii∗ = A∗ ji A† (α, β) = hwα| A† |wβi = hwβ| A |wαi∗ = A∗ (β, α) these results coincide with the one obtained in Eq. (1.70). If A is hermitian then A = A† and Aij = A∗ ji ; A (α, β) = A∗ (β, α) (1.174) in particular applying these conditions for i = j or α = β we see that the diagonal elements of an hermitian matrix are real. These facts are valid only if the basis is orthonormal, otherwise the matrix representative of the adjoint of the matrix takes another form. 1.41. Change of representations In a representation characterized by a given orthonormal basis {|uii} the kets, bras and operators have some specific matrix representatives. We want to write the matrix representative of these objects in a new orthonormal basis {|tki} using the Dirac notation18. For future purposes we define the matrix S in the form Sik ≡ hui| tki ; S† ki = S∗ ik = htk| uii 18 This problem is a bit lees general that the one treated in Sec. (1.14), because in that section the bases involved are non necessarily orthonormal. However, in this case we are treating the problem in infinite dimension.
  • 302.
    94 CAPÍTULO 1.LINEAR OR VECTOR SPACES To give a geometrical meaning to S, let define V (k) i ≡ Sik and V(k) the k−th column vector with components Sik. Then, it is clear that V(k) is the matrix representative (column matrix) of the element |tki in the basis {|uii}. We then construct a square matrix by putting these column vectors side by side S = V(1) V(2) · · · =       S11 S21 . . .       S12 S22 . . .    · · ·    =    S11 S12 · · · S21 S22 · · · . . . . . .    We can also see that S is a unitary matrix S† S km = X i S† kiSim = X i htk| uii hui| tmi = htk| P{ui} |tmi = htk| tmi = δkm SS† ij = X k SikS† kj = X k hui| tki htk| uji = hui| P{tk} |uji = hui| uji = δij consequently S† S = SS† = I On the other hand, we will also require the closure and orthonormalization relations with both bases P{ui} = X i |uii hui| = I ; hui| uji = δij P{tk} = X k |tki htk| = I ; htk| tmi = δkm 1.41.1. Transformation of the coordinates of a ket The coordinates of a ket |ψi in the basis {|uii} are hui| ψi ≡ |ψi(ui) . To know the coordinates in the new basis htk| ψi, in terms of the old ones, we insert the closure relation for {|uki} in the element htk| ψi htk| ψi = X i htk| uii hui| ψi = X i S† ki hui| ψi c (t) k = X i S† kic (u) i ; c(t) = S† c(u) The inverse relation can be obtained by taking into account that S† = S−1 c(t) = S−1 c(u) ⇒ c(u) = Sc(t) or alternatively by inserting an identity in the element hui| ψi hui| ψi = X k hui| tki htk| ψi = X k Sik htk| ψi c (u) i = X k Sikc (t) k ; c(u) = Sc(t) 1.41.2. Transformation of the coordinates of a bra We insert the identity in the element hψ| tki hψ| tki = X i hψ| uii hui| tki = X i hψ| uiiSik c ∗(t) k = X i c ∗(u) i Sik ⇒ e c∗(t) = e c∗(u) S similarly e c∗(u) = e c∗(t) S†
  • 303.
    1.42. REPRESENTATION OFTHE EIGENVALUE PROBLEM IN DIRAC NOTATION 95 1.41.3. Transformation of the matrix elements of an operator We start with htk| A |tmi and insert two identities htk| A |tmi = htk| IAI |tmi = X i X j htk| uii hui| A |uji huj |tmi = X i,j S† kiA (u) ij Sjm A (t) km = X i,j S† kiA (u) ij Sjm ; A(t) = S† A(u) S (1.175) and the inverse relation is obtained from huk| A |umi = X i,j huk| tii hti| A |tji htj |umi = X i,j SkiA (t) ij S† jm A (u) km = X i,j SkiA (t) ij S† jm ; A(u) = SA(t) S† (1.176) or taking into account that S† = S−1. 1.42. Representation of the eigenvalue problem in Dirac notation For a given observable A the eigenvalue problem reads A |ψi = λ |ψi we want to construct its matrix representation in a basis {ui}. We first multiply by a bra of the form hui| on both sides hui| A |ψi = λhui |ψi and insert an identity X j hui| A |uji huj |ψi = λhui |ψi X j Aijcj = λci ; ci ≡ hui |ψi ; Aij ≡ hui| A |uji with ci and Aij the matrix elements of |ψi and A in the basis {ui}. This expression can be rewritten as X j [Aij − λδij] cj = 0 which is the well known expression for the eigenvalue problem in matrix form. 1.42.1. C.S.C.O. in Dirac notation Assume that a given set of observables {A1, ..., Am} forms a C.S.C.O. Then a given set of eigenvalues n a (1) n1 , ..., a (m) nm o defines a unique normalized eigenvector common to all the observables (within a phase factor). We shall see later that any set of kets that differ in a global phase factor |ψi , eiθ1 |ψi , ..., eiθk |ψi have the same physical information. Thus, the normalized ket associated with the set n a (1) n1 , ..., a (m) nm o is unique from the physical pointof view. Therefore, it is usual to denote the corresponding ket in the form |ψn1,...,nmi or simply as |n1, n2, ..., nmi and the set of eigenvalues are called quantum numbers. Ai |n1, . . . , ni, ..., nmi = a(i) ni |n1, . . . , ni, ..., nmi ; i = 1, .., m
  • 304.
    96 CAPÍTULO 1.LINEAR OR VECTOR SPACES 1.43. The continuous bases |ri and |pi From the wave functions space ̥ we have constructed the abstract space Er such that there is an isometric isomorphism of ̥ onto Er, therefore they are abstractly identical as Hilbert spaces. Consequently, an element ψ (r) ∈ ̥ has a unique image |ψi ∈ Er and vice versa. In particular, the inner product must be preserved by this correspondence |ψi ↔ ψ (r) ; |ϕi ↔ ϕ (r) ; hψ| ↔ ψ∗ (r) ; hϕ| ↔ ϕ∗ (r) (|ϕi , |ψi) = (ϕ, ψ) ≡ hϕ| ψi = Z d3 r ϕ∗ (r) ψ (r) Er will describe the state space of a spinless particle. We have discussed before that ψ (r) can also be interpreted as a representation of the abstract ket |ψi in the continuous basis {ξr (r′)} defined in Eq. (1.120). We also saw that ξr (r′) are not elements of ̥, but they can be used to expand any element of ̥ in a unique way. We call ξr (r′) “generalized wave functions” and it is natural to associate with them some “generalized kets” denoted as |ri that do not belong to Er but can expand any element of Er in such a way that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξr (r′) has the same coefficients as the expansion of |ψi under |ri ψ (r) = Z dr′ c r′ ξr′ (r) ; |ψi = Z dr′ c r′
  • 306.
    r′ We denote thisassociation as ξr ↔ |ri. Similarly, for the continuous basis defined in Eq. (1.116) by {vp (r)} which has plane waves as “generalized wave functions”, we shall have a continuous basis of Er denoted as |p0i ξr r′ ↔ |ri ; vp (r) ↔ |pi therefore, using the bases {ξr (r′)} and {vp (r)} of ̥ we have defined two continuous basis in Er denoted as {|ri} and {|pi}. Consequently, all bras, kets and operators in Er will have a continuous matrix representation in these bases. The basis {|ri} is labeled by three continuous indices x, y, z which are the coordinates of a point in three dimensional space. Similarly, the basis {|pi} is labeled by three continuous indices px, py, pz which are components of a cartesian vector. 1.43.1. Orthonormalization and closure relations We shall calculate hr |r′i using the definition of the scalar product in Er hr
  • 308.
  • 310.
    r′ = δ r− r′ (1.177) similarly hp
  • 312.
    p′ = Z d3 r v∗ p (r)vp′ (r) = 1 2π~ 3 Z d3 r e−ip·r/~ eip′·r = 1 2π~ 3 Z d3 r e−i(p−p′)·r/~ hp
  • 314.
    p′ = δ p− p′ where we have used property (1.117). The closure relations for {|ri} and {|pi} are written according with the second of Eqs. (1.170) integrating over three indices instead of one. The orthonormality and closure relations for these bases are then hr
  • 316.
    r′ = δ r− r′ ; hp
  • 318.
    p′ = δ p− p′ (1.178) Z d3 r |ri hr| = I ; Z d3 p |pi hp| = I (1.179)
  • 319.
    1.43. THE CONTINUOUSBASES |Ri AND |Pi 97 1.43.2. Coordinates of kets and bras in {|ri} and {|pi} Consider an arbitrary ket |ψi corresponding to a wave function ψ (r). The closure relations for {|ri} and {|pi} permits to expand |ψi as |ψi = Z d3 r |ri hr| ψi = Z d3 r c (r) |ri ; |ψi = Z d3 p |pi hp| ψi = Z d3 p c̄ (p) |pi (1.180) the coefficients c (r) = hr| ψi and c̄ (p) = hp| ψi are calculated as follows hr| ψi = Z d3 r′ ξ∗ r r′ ψ r′ = Z d3 r′ δ r′ − r ψ r′ = ψ (r) hp| ψi = Z d3 r v∗ p (r) ψ (r) = 1 2π~ 3/2 Z d3 r e−ip·r/~ ψ (r) = ψ̄ (p) hence c (r) = hr| ψi = ψ (r) ; c̄ (p) = hp| ψi = ψ̄ (p) (1.181) the coefficients c (r) of the expansion of |ψi under {|ri} are the wave functions evaluated at the point r, this fact reinforces the interpretation of the wave function as the representation of |ψi under the basis |ri. The coefficients c̄ (p) are the fourier transforms of the wave function, this coefficients ψ̄ (p) are usually called “wave functions in momentum space”, since they represent the same abstract vector |ψi it is clear that ψ (r) and ψ̄ (p) contain the same physical information, this can also be seen by taking into account that given ψ (r) then ψ̄ (p) is uniquely determined and vice versa. On the other hand, by comparing Eqs. (1.180, 1.181) with Eqs. (1.121, 1.122) we see that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξr (r′) has the same coefficients as the expansion of |ψi under |ri as we demanded. Similar situation occurs with the basis {vp} in ̥ and the basis |pi in Er. An important particular case arises when |ψi = |pi which is indeed a generalized ket. Assuming that all the relations above are also valid for generalized kets, and taking into account that |pi ↔ vp (r), then Eq. (1.181) gives hr| pi = vp (r) = 1 2π~ 3/2 eip·r/~ (1.182) the same result is obtained by taking into account the equality of the inner product of vectors in ̥ and vectors in Er when this equality is extended to generalized vectors hr| pi = (|ri , |pi) = (ξr, vp) = Z d3 r′ ξ∗ r r′ vp r′ = Z d3 r′ δ r′ − r vp r′ = vp (r) applying Eq. (1.181) for |ψi = |r′i ↔ ψ (r) = ξr′ (r) we find hr| r′ i = ξr′ (r) = δ r − r′ which is consistent with the orthonormalization relation. Similar arguments leads to hp| ri = v∗ p (r) = 1 2π~ 3/2 e−ip·r/~ ; hp| p′ i = δ p − p′ Assume that we have an orthonormal basis {ui (r)} in ̥ and an orthonormal basis {|uii} in Er such that ui (r) ↔ |uii. Starting with the closure relation for {|uii} in Er X i |uii hui| = I
  • 320.
    98 CAPÍTULO 1.LINEAR OR VECTOR SPACES and evaluating the matrix element of it between |ri and |r′i we have X i hr |uii hui| r′ i = hr| I
  • 322.
    r′ = hr| r′ i andusing Eqs. (1.181, 1.178) we find X i ui (r) u∗ i r′ = δ r − r′ which is the closure relation as it was expressed in Eq. (1.110) for {ui (r)} in ̥, reversing the steps we can obtain the closure relation for {|uii} in Er starting from the closure relation for {ui (r)} in ̥19. Notice that the inner product of two kets in terms of their coordinates under the basis {|ri} is a particular case of Eq. (1.114). Equivalently, we obtain it by insertion of the identity hϕ |ψi = Z d3 r hϕ |ri hr |ψi and interpreting the components hϕ |ri and hr |ψi as in Eq. (1.181) hϕ |ψi = Z d3 r ϕ∗ (r) ψ (r) a similar procedure can be done for the basis {|pi} hϕ |ψi = Z d3 p hϕ |pi hp |ψi = Z d3 p ϕ̄∗ (p) ψ̄ (p) from which it is obtained Z d3 r ϕ∗ (r) ψ (r) = Z d3 p ϕ̄∗ (p) ψ̄ (p) this is a well-known property of the Fourier trasnforms. 1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa The procedure is similar to the one in section 1.41 but for continuous basis. If we consider the change from {|ri} to {|pi}, the unitary matrix S of changing the basis is S (r, p) = hr |pi = 1 2π~ 3/2 eip·r/~ (1.183) a ket |ψi is represented as ψ (r) in {|ri} and we know well that in {|pi} it is given by ψ̄ (p). Here we see that it is consistent with the formalism developed in Sec. 1.41 hp |ψi = Z d3 r hp |ri hr |ψi = Z d3 r S† (r, p) hr |ψi ψ̄ (p) = 1 2π~ 3/2 Z d3 r e−ip·r/~ ψ (r) (1.184) similarly hr |ψi = Z d3 p hr |pi hp |ψi = Z d3 p S (r, p) hp |ψi ψ (r) = 1 2π~ 3/2 Z d3 p eip·r/~ ψ̄ (p) (1.185) 19 Notice that I (r, r′ ) = hr′ | I |ri = hr′ | ri = δ (r − r′ ) shows that the Dirac delta can be seen as the representation of the identity under the continuous hyperbasis {|ri}.
  • 323.
    1.43. THE CONTINUOUSBASES |Ri AND |Pi 99 the representation of bras can be obtained by hermitian conjugation of the relations with kets. Now for a given operator, the matrix elements in {|pi} read A (p′, p) = hp′| A |pi inserting two identities we get p′
  • 325.
  • 327.
  • 329.
    A |ri hr|pi p′
  • 331.
    A |pi = Z d3 r′ Z d3 rS† r′ , p′ A r′ , r S (r, p) which is the continuous generalization of (1.175). Using (1.183) we find A p′ , p = 1 2π~ 3 Z d3 r′ Z d3 r e−ip′·r′/~ A r′ , r eip·r/~ A p′ , p = 1 2π~ 3 Z d3 r′ Z d3 r e−i(p′·r′−p·r)/~ A r′ , r the inverse relation is obtained from r′
  • 333.
  • 335.
  • 337.
    A |pi hp|ri r′
  • 339.
    A |ri = Z d3 p′ Z d3 pS r′ , p′ A p′ , p S† (r, p) this is the continuous generalization of (1.176). From (1.183) we find A r′ , r = 1 2π~ 3 Z d3 p′ Z d3 p eip′·r′/~ A p′ , p e−ip·r/~ A r′ , r = 1 2π~ 3 Z d3 p′ Z d3 p ei(p′·r′−p·r)/~ A p′ , p 1.43.4. The R and P operators Let |ψi be an arbitrary ket of Er and ψ (r) = ψ (x, y, z) the corresponding wave function. We define an operator X in the form20
  • 341.
    ψ′ = X |ψi suchthat in the {|ri} representation the associated wave function ψ′ (r) = ψ (x, y, z) is given by ψ′ (x, y, z) = xψ (x, y, z) (1.186) so in the {|ri} representation, it corresponds to the operator that multiplies the wave function by x. We should emphasize however, that the operator X is defined on the Er state space. Eq. (1.186) can be expressed by hr| X |ψi = hr| ψ′ i = ψ′ (r) = xψ (r) = xhr |ψi Of course, we can introduce the operators Y and Z in a similar way hr| X |ψi = xhr |ψi , hr| Y |ψi = yhr |ψi , hr| Z |ψi = zhr |ψi ; |ri = |x, y, zi (1.187) we can consider X, Y, Z as the “components” of a “vector operator” R, by now it only means a condensed notation inspired in the fact that x, y, z are the components of the ordinary vector r. 20 The operator X does not belong to ß(Er), because for some square integrable functions ψ (r), the function ψ′ (r) defined in Eq. (1.186) is not square integrable.
  • 342.
    100 CAPÍTULO 1.LINEAR OR VECTOR SPACES These operators can be easily manipulated in the {|ri} representation. For instance, the element hϕ| X |ψi can be calculated as hϕ| X |ψi = Z d3 r hϕ| ri hr| X |ψi = Z d3 r ϕ∗ (r) x ψ (r) similarly, we define the operators Px, Py, Pz that forms the “vector operator” P, such that their action in the {|pi} representation is given by hp| Px |ψi = pxhp |ψi , hp| Py |ψi = pyhp |ψi , hp| Pz |ψi = pzhp |ψi ; |pi = |px, py, pzi (1.188) however, when we require to work with both operators simultaneously, we should choose only one basis. Hence, it is important to know how the operator P acts in the {|ri} representation, and how the operator R acts in the {|pi} representation. Let us first look for the way in which the operator P acts in the {|ri} representation. For this, we use Eqs. (1.181, 1.182, 1.188) to evaluate hr| Px |ψi = Z d3 p hr| pi hp| Px |ψi = Z d3 p hr| pipx hp| ψi = 1 2π~ 3/2 Z d3 p eip·r/~ pxψ̄ (p) (1.189) to evaluate this term we start with the expression of the Fourier transform Eq. (1.185) ψ (r) = 1 2π~ 3/2 Z ∞ −∞ d3 p eip·r/~ ψ̄ (p) ∂ψ (r) ∂x = 1 2π~ 3/2 Z ∞ −∞ d3 p ∂ ∂x eip·r/~ ψ̄ (p) ∂ψ (r) ∂x = 1 2π~ 3/2 Z ∞ −∞ d3 p i ~ pxeip·r/~ ψ̄ (p) we have that ~ i ∂ψ (r) ∂x = 1 2π~ 3/2 Z ∞ −∞ d3 p pxeip·r/~ ψ̄ (p) (1.190) if we continue derivating this expression we find ∂nψ (r) ∂xn = 1 2π~ 3/2 Z ∞ −∞ d3 p i ~ px n eip·r/~ ψ̄ (p) replacing (1.190) in (1.189) we obtain hr| Px |ψi = ~ i ∂ψ (r) ∂x and similarly for Py, Pz. In vector form we summarize it as hr| P |ψi = ~ i ∇hr |ψi (1.191) in the {|ri} representation, the operator P coincides with the differential operator acting on the wave functions. Let us calculate hϕ| Px |ψi in the {|ri} representation hϕ| Px |ψi = Z d3 r hϕ |ri hr| Px |ψi = Z d3 r ϕ∗ (r) ~ i ∂ ∂x ψ (r) (1.192)
  • 343.
    1.43. THE CONTINUOUSBASES |Ri AND |Pi 101 of great importance are the commutators among the components Pi, Ri. We shall calculate them in the {|ri} representation, for instance hr| [X, Px] |ψi = hr| (XPx − PxX) |ψi = hr| (XPx) |ψi − hr| (PxX) |ψi = hr| X |Pxψi − hr| Px |Xψi = x hr| Pxψi − ~ i ∂ ∂x hr| Xψi = x hr| Px |ψi − ~ i ∂ ∂x hr| X |ψi = ~ i x ∂ ∂x hr| ψi − ~ i ∂ ∂x [x hr| ψi] = ~ i x ∂ ∂x hr| ψi − ~ i x ∂ ∂x [hr| ψi] − ~ i hr| ψi so that hr| [X, Px] |ψi = i~ hr| ψi since this is valid for any ket |ψi and any generalized ket |ri of the basis, we conclude that [X, Px] = i~I it is usual to omit the identity operator since it is not important for practical calculations. In a similar way, we can calculate the other commutators, to condense notation it is convenient to define R1 ≡ X, R2 ≡ Y, R3 ≡ Z, P1 ≡ Px, P2 ≡ Py, P3 ≡ Pz to write [Ri, Rj] = [Pi, Pj] = 0 ; [Ri, Pj] = i~δij (1.193) they are called canonical commutation relations. These relations are intrinsic and should not depend on the basis in which we derive them. We can show that R and P are hermitian operators. For example let us show that X is hermitian hϕ| X |ψi = Z d3 r hϕ |ri hr| X |ψi = Z d3 r ϕ∗ (r) x ψ (r) = Z d3 r ψ (r)∗ x ϕ (r) ∗ hϕ| X |ψi = hψ| X |ϕi∗ since this is valid for arbitrary kets |ψi and |ϕi, and taking into account Eq. (1.163) we conclude that X = X†. For Px we see that hϕ| Px |ψi = Z d3 p hϕ |pi hp| Px |ψi = Z d3 p ϕ̄∗ (p) px ψ̄ (p) = Z d3 p ψ̄ (p)∗ px ϕ̄ (p) ∗ hϕ| Px |ψi = hψ| Px |ϕi∗ and Px = P† x. The procedure is the same for the other components of R and P R = R† , P = P† There is an alternative proof of the hermiticity of P by using its action in the {|ri} representation given by Eq. (1.191). Integrating Eq. (1.192) by parts we have hϕ| Px |ψi = ~ i Z dy dz Z ∞ −∞ dx ϕ∗ (r) ∂ ∂x ψ (r) = ~ i Z dy dz [ϕ∗ (r) ψ (r)]x=∞ x=−∞ − Z ∞ −∞ dx ψ (r) ∂ ∂x ϕ∗ (r)
  • 344.
    102 CAPÍTULO 1.LINEAR OR VECTOR SPACES since the scalar product hϕ| ψi is convergent, ϕ∗ (r) ψ (r) approaches zero when x → ±∞. Hence the first term on the right-hand side vanishes and we find hϕ| Px |ψi = − ~ i Z d3 r ψ (r) ∂ ∂x ϕ∗ (r) = ~ i Z d3 r ψ∗ (r) ∂ ∂x ϕ (r) ∗ hϕ| Px |ψi = hψ| Px |ϕi∗ two things deserve attention, first the presence of the i factor is essential because i∂/∂x is hermitian but ∂/∂x is not. Second, we have used explicitly the fact that |ψi and |ϕi belong to Er by assuming that the scalar product hϕ| ψi is convergent, so this proof is not valid for generalized kets. 1.43.5. The eigenvalue problem for R and P Let us calculate the matrix element X (r′, r) of the operator X in the basis {|ri} X r′ , r = r′
  • 346.
    X |ri =x′ r′
  • 348.
    ri = x′ δr − r′ = xδ r − r′ = x r′
  • 350.
  • 352.
  • 354.
    ri so the componentsof the ket X |ri in the {|r′i} representation are equal to the ones of the ket |ri = |x, y, zi multiplied by x X |ri = x |ri we proceed in the same way for Y and Z X |ri = x |ri , Y |ri = y |ri , Z |ri = z |ri ; |ri = |x, y, zi the kets |ri are eigenkets common to X, Y, Z. The set {|ri} of common eigenvectors of X, Y, Z forms a basis showing that {X, Y, Z} is a complete set of commuting observables. On the other hand, the specification of the three eigenvalues x0, y0, z0 determines uniquely the “normalized” eigenvector |r0i except for a phase eiθ. In the {|ri} representation the coordinates of |r0i are δ (x − x0) δ (y − y0) δ (z − z0). Therefore, the set {X, Y, Z} constitutes a C.S.C.O. in Er. Analogous reasoning shows that for the commuting observables {Px, Py, Pz} the eigenvalues and eigenvectors are Px |pi = px |pi , Py |pi = py |pi , Pz |pi = pz |pi ; |pi = |px, py, pzi since {|pi} is a basis the operators Px, Py, Pz are observables. Because the set of eigenvalues (p0x, p0y, p0z) deter- mines uniquely the vector |p0i the set {Px, Py, Pz} constitutes as C.S.C.O. in Er. It worths pointing out that X is not a C.S.C.O. by itself in the Er state space because when x0 is specified y0 and z0 can take any real values. Therefore, x0 is an infinitely degenerate eigenvalue. Notwithstanding in the state space Ex of a particle in one dimension, X constitutes a C.S.C.O. since the eigenvalue x0 determines uniquely the eigenvector |x0i, and its coordinates in the {|xi} representation are given by δ (x − x0). It can also be shown that the set {X, Py, Pz} constitutes a C.S.C.O. since they commute with each other, and for a set of eigenvalues {x0, p0y, p0z} there is a unique eigenvector whose associated wave function is ψx0,p0y,p0z (x, y, z) = δ (x − x0) 1 2π~ ei(p0yy+p0zz)/~ of course, similar C.S.C.O. are built from the sets {Y, Px, Pz} , {Z, Px, Py}
  • 355.
    1.43. THE CONTINUOUSBASES |Ri AND |Pi 103 1.43.6. Some properties of Fourier transforms We have seen that if a vector |ψi acquires the value ψ (r) in the {|ri} basis, its value ψ (p) in the {|pi} basis is connected with ψ (r) through a Fourier transform Eqs. (1.184, 1.185) ψ̄ (p) = 1 2π~ 3/2 Z d3 r e−ip·r/~ ψ (r) (1.194) ψ (r) = 1 2π~ 3/2 Z d3 p eip·r/~ ψ̄ (p) (1.195) It can be seen that if ψ depends only on |r| = r, then ψ depends only on |p| = p and is given by ψ (r) = ψ (r) ⇒ ψ̄ (p) = ψ̄ (p) = 1 √ 2π~ 2 p Z ∞ 0 r dr sin pr ~ ψ (r) (1.196) to see it, let us apply a rotation R to the vector p p′ ≡ Rp and we use such a rotated vector in Eq. (1.194), taking into account that ψ (r) = ψ (|r|) = ψ (r) ψ̄ p′ = 1 2π~ 3/2 Z d3 r e−ip′·r/~ ψ (r) now we use a new (rotated) variable r′ = Rr ψ̄ p′ = 1 2π~ 3/2 Z d3 r′ e−ip′·r′/~ ψ r′ (1.197) and we take into account that the length r, the volume element, and the dot product are all conserved under a rotation d3 r′ = d3 r ; p′ · r′ = p · r ; ψ r′ = ψ (r) applying these invariances in Eq. (1.197), we see that ψ̄ p′ = ψ (p) since the rotation is arbitrary, it means that ψ only depends on |p| and not on its direction. Therefore, we can evaluate ψ (p) with Eq. (1.194), by choicing p = puz ψ (p) = 1 2π~ 3/2 Z d3 r e−ipz/~ ψ (r) = 1 2π~ 3/2 Z ∞ 0 r2 dr ψ (r) Z π 0 dθ sin θ e−ipr cos θ/~ Z 2π 0 dϕ ψ (p) = 2π 1 2π~ 3/2 Z ∞ 0 r2 dr ψ (r) Z π 0 dθ sin θ e−ipr cos θ/~ (1.198) let us evaluate the integral in θ Z π 0 dθ sin θ e−ipr cos θ/~ = Z π 0 dθ e− i 2 pr cos θ/~ 2~ ipr ipr 2~ sin θ e− i 2 pr cos θ/~ = 2~ ipr Z π 0 dθ e− i 2 pr cos θ/~ d dθ h e− i 2 pr cos θ/~ i = 2~ ipr 1 2 e−ipr cos θ/~
  • 359.
    π 0 (1.199) = 2~ ipr 1 2 eipr/~ − e−ipr/~ = 2~ ipr 2i 2 Im eipr/~ = 2~ pr Im h cos pr ~ + isin pr ~ i Z π 0 dθ sin θ e−ipr cos θ/~ = 2~ pr sin pr ~ (1.200)
  • 360.
    104 CAPÍTULO 1.LINEAR OR VECTOR SPACES substituting Eq. (1.200) in Eq. (1.198) we have ψ (p) = 2π 1 2π~ 3/2 Z ∞ 0 r2 dr ψ (r) 2~ pr sin pr ~ thus, Eq. (1.196) is obtained. 1.44. General properties of two conjugate observables Two arbitrary observables Q and P are called conjugate if they obey the conmutation rule [Q, P] = i~ (1.201) such couples of observables are frequently encountered in quantum mechanics. The position and momentum observables are good examples. However, in what follows all properties are derived from the commutation rule (1.201) regardless the specific form of the operators. Let us define the operator S (λ) that depends on a real parameter λ as S (λ) = e−iλP/~ (1.202) since P is observable and so hermitian this operator is unitary S† (λ) = eiλP/~ = S−1 (λ) = S (−λ) (1.203) since P obviously commute with itself, Eq. (1.149) leads to S (λ) S (µ) = S (λ + µ) (1.204) now we calculate the commutator [Q, S (λ)]. To do it, we take into account that [Q, P] = i~ clearly commutes with Q and P, therefore we can apply theorem 1.70, Eq. (1.136) to obtain [Q, S (P)] = [Q, P] S′ (P) = i~ − iλ ~ e−iλP/~ = λS (P) where we have written S (P) instead of S (λ) to emphasize that when applying Eq. (1.136) we are considering S as a function of the operator P (so the derivative is with respect to P). Rewriting it in the old notation we have [Q, S (λ)] = λS (λ) ⇒ QS (λ) − S (λ) Q = λS (λ) QS (λ) = S (λ) [Q + λ] (1.205) 1.44.1. The eigenvalue problem of Q Suppose that Q has a non-zero eigenvector |qi, with eigenvalue q Q |qi = q |qi (1.206) applying Eq. (1.205) on the vector |qi we have QS (λ) |qi = S (λ) [Q + λ] |qi = S (λ) [q + λ] |qi Q [S (λ) |qi] = [q + λ] [S (λ) |qi] (1.207) therefore, S (λ) |qi is also an eigenvector of Q with eigenvalue q + λ. Note that S (λ) |qi is non-zero because S (λ) is unitary so the norm of |qi is preserved. On the other hand, since λ can take any real value, we conclude that by
  • 361.
    1.44. GENERAL PROPERTIESOF TWO CONJUGATE OBSERVABLES 105 starting with an eigenvector of Q, we can construct another eigenvector of Q with any real eigenvalue by applying the appropiate S (λ). Consequently, the spectrum of Q is continuous and consists of all real values. Note that this result shows in particular that conjugate operators Q, P cannot exist in finite dimensional vector spaces since for the latter the spectrum must be finite. Even they do not exist strictly in spaces of denumerable dimension such as L2, (for which the spectrum must be at most denumerable), so the eigenvectors |qi will form hyperbasis in L2. Let us now show that if any given q is non-degenerate, then all the other eigenvalues of Q are also non- degenerate. For this we assume that the eigenvalue q+λ is at least two-fold degenerate and arrive to a contradiction. From this hypothesis, there are at least two orthogonal eigenvectors |q + λ, αi and |q + λ, βi associated with the eigenvalue q + λ hq + λ, β |q + λ, αi = 0 (1.208) now consider the two vectors S (−λ) |q + λ, αi and S (−λ) |q + λ, βi from Eq. (1.207) we see that QS (−λ) |q + λ, αi = [q + λ + (−λ)] S (−λ) |q + λ, αi = qS (−λ) |q + λ, αi QS (−λ) |q + λ, βi = [q + λ + (−λ)] S (−λ) |q + λ, βi = qS (−λ) |q + λ, βi so S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two eigenvectors associated with the eigenvalue q. Calculating the inner product of them hq + λ, β| S† (−λ) S (−λ) |q + λ, αi = hq + λ, β |q + λ, αi = 0 where we have used Eq. (1.208) and the fact that S (λ) is unitary. Thus, we arrive to the fact that S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two orthogonal (and so linearly independent) eigenvectors associated with q, contradicting the hypothesis that q is non-degenerate. This result can be extended to find that the eigenvalues of Q must all have the same degree of degeneracy. We now look for the eigenvectors. We fix the relative phses of the diffrent eigenvectors of Q with respect to the eigenvector |0i associated with the eigenvalue 0, by setting |qi ≡ S (q) |0i (1.209) applying S (λ) on both sides of (1.209) and using (1.204), we get S (λ) |qi = S (λ) S (q) |0i = S (λ + q) |0i = |q + λi and the corresponding bra gives hq| S† (λ) = hq + λ| now using Eq. (1.203) we see that S† (λ) = S (−λ) from which hq| S (−λ) = hq + λ| ⇒ hq| S (λ) = hq − λ| where we have replaced λ → −λ in the last step. In summary the action of S (λ) on the eigenvectors |qi of Q are given by S (λ) |qi = |q + λi ; hq| S (λ) = hq − λ| (1.210) now we can characterize the action of the operators P, Q and S (λ) in either the {|qi} basis or the {|pi} basis. 1.44.2. The action of Q, P and S (λ) in the {|qi} basis Since Q is an observables the set of eigenvectors {|qi} of Q forms a basis. A given ket |ψi in our Hilbert space can be written in the {|qi} basis as ψ (q) ≡ hq |ψi
  • 362.
    106 CAPÍTULO 1.LINEAR OR VECTOR SPACES let us calculate the representation of Q |ψi in this basis hq| Q |ψi = qhq |ψi = qψ (q) where we have used (1.206) and the hermiticity of Q. The action of Q on |ψi reduces to a simple multiplication with its associated eigenvalue. The action of S (λ) on |ψi in this basis is also simple hq| S (λ) |ψi = hq − λ| ψi = ψ (q − λ) ; S (λ) ≡ e−iλP/~ (1.211) where we have used (1.210). Note that a function f (x − a) is the function that at the point x = x0 + a, takes on the value f (x0), so that it is the function obtained from f (x)by a translation of +a. Therefore, Eq. (1.211, shows that the action of S (λ) on |ψi in the basis {|qi} , can be described as a translation of the wave function over a distance +λ parallel to the q−axis. So S (λ) is usually called the translation operator. The action of P on |ψi in the {|qi} basis is a bit longer to obtain. Let ε be an infinitesimal quantity such that S (−ε) = eiεP/~ = I + i ε ~ P + O ε2 therefore hq| S (−ε) |ψi = hq| h I + i ε ~ P + O ε2 i |ψi = hq |ψi + i ε ~ hq| P |ψi + O ε2 hq| S (−ε) |ψi = ψ (q) + i ε ~ hq| P |ψi + O ε2 (1.212) on the other hand, from Eq. (1.211) we have hq| S (−ε) |ψi = ψ (q + ε) (1.213) and comparing (1.212) with (1.213) we have ψ (q + ε) = ψ (q) + i ε ~ hq| P |ψi + O ε2 ⇒ i ε ~ hq| P |ψi = ψ (q + ε) − ψ (q) − O ε2 solving for hq| P |ψi and taking into account that ε is infinitesimal we have hq| P |ψi = ~ i lı́m ε→0 ψ (q + ε) − ψ (q) ε hq| P |ψi = ~ i d dq ψ (q) (1.214) so the action of P on a ket in the {|qi} basis is that of ~ i d dq . 1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q From Eq. (1.214), we can obtain the wave function vp (q) associated in the {|qi} basis, with the eigenvector |pi of P with eigenvalue p vp (q) = hq |pi = 1 √ 2π~ eipq/~ we can then write |pi = 1 √ 2π~ Z ∞ −∞ dqeipq/~ |qi
  • 363.
    1.45. DIAGONALIZATION OFA 2 × 2 HERMITIAN MATRIX 107 a wave function in the {|pi} representation is given by ψ̄ (p) = hp |ψi = hp| Z |qi hq| ψi = Z hp |qi hq| ψi ψ̄ (p) = 1 √ 2π~ Z ∞ −∞ dqeipq/~ ψ (q) which is the Fourier transform of ψ (q). It can be shown that the action of the P operator in the {|pi} repesentation is associated with multiplication by p, while the representation of X corresponds to the operations i~d/dp. Therefore, the results are symmetrical in the {|qi} and {|pi} bases. It comes from the fact that we can interchange Q and P with no more cost than changing the sign of the conmutator in (1.201). The analogous of the translation operation in the {|pi} basis is the operator defined by T (α) = eiαQ/~ which acts as a translation in the momentum space. The arguments developed for the basis {|qi} can be repeated in the basis {|pi} by interchanging P by Q and i by −i everywhere. As a matter of curiosity, in Classical Mechanics, the Hamilton equations are also symmetrical in the conjugate variables (Q, P) and we can interchange them with no more cost that a change in sign. We emphasize again that the results obtained in this section only depend on the canonica rule of commutation (1.201) and not on the explicit form of the Q and P operators. 1.45. Diagonalization of a 2 × 2 hermitian matrix This example illustrates many concepts introduced in the eigenvalue problem in a quite simple way. Further, it is useful in many practical calculations involving systems of two states in quantum mechanics. The eigenvalue problem is very easy but the determination of eigenvectors could lead easily to complicated expressions. We shall determine the eigenvalues and find the eigenvectors in a way easy to handle. 1.45.1. Formulation of the problem Consider an hermitian operator R in a two dimensional Hilbert space. Its matrix representation in a given orthonormal basis {|ϕ1i , |ϕ2i} reads H ≡ hϕ1| R |ϕ1i hϕ1| R |ϕ2i hϕ2| R |ϕ1i hϕ2| R |ϕ2i = H11 H12 H21 H22 (1.215) an hermitian operator is described by an hermitian matrix when the basis used is orthonormal. Therefore, H11 = H∗ 11 ; H22 = H∗ 22 ; H12 = H∗ 21 so that diagonal elements are real. Let us express the matrix in Eq. (1.215) in the equivalent form H = 1 2 (H11 + H22) 0 0 1 2 (H11 + H22) + 1 2 (H11 − H22) H12 H21 −1 2 (H11 − H22) H = 1 2 (H11 + H22) 1 0 0 1 + 1 2 (H11 − H22) 1 2H∗ 21 (H11−H22) 2H21 (H11−H22) −1 ! H = 1 2 (H11 + H22) I + 1 2 (H11 − H22) K ; K ≡ 1 2H∗ 21 (H11−H22) 2H21 (H11−H22) −1 ! (1.216)
  • 364.
    108 CAPÍTULO 1.LINEAR OR VECTOR SPACES and I is the identity matrix. Let |ψ±i be two linearly independent eigenvectors of K K |ψ±i = κ± |ψ±i (1.217) applying the ket |ψ±i on Eq. (1.216) we have H |ψ±i = 1 2 (H11 + H22) I |ψ±i + 1 2 (H11 − H22) K |ψ±i H |ψ±i = 1 2 [(H11 + H22) + (H11 − H22) κ±] |ψ±i therefore |ψ±i are also eigenvectors of H with eigenvalues H |ψ±i = E± |ψ±i ; E± ≡ 1 2 [(H11 + H22) + (H11 − H22) κ±] (1.218) note that the problem reduces to find the eigenvectors of K (which coincide with the ones of H) and also its eigenvalues (which are related with the eigenvalues of H through Eq. 1.218). Solving the problem for K is equivalent to choose the origin of the eigenvalues in (H11 + H22) /2 = (TrH)/2. Note that this shift is independent of the basis chosen to write H. 1.45.2. Eigenvalues and eigenvectors of K For simplicity we define the angles θ, ϕ in terms of the matrix elements Hij as follows tan θ = 2 |H21| H11 − H22 , 0 ≤ θ π (1.219) H21 = |H21| eiϕ , 0 ≤ ϕ 2π (1.220) so ϕ is the argument of the term H21. Matrix K in Eq. (1.216) can be written as K = 1 2|H21|e−iϕ (H11−H22) 2|H21|eiϕ (H11−H22) −1 ! = 1 tan θ e−iϕ tan θ eiϕ −1 (1.221) the characteristic equation of matrix (1.221) yields det [K − λI] = 0 = (1 − κ) (−1 − κ) − tan2 θ ⇒ κ2 − 1 − tan2 θ = 0 ⇒ κ2 = 1 + tan2 θ = 1 cos2 θ the eigenvalues of K read κ+ = 1 cos θ , κ− = − 1 cos θ (1.222) and they are real as expected. We can express 1/ cos θ in terms of the matrix elements Hij by using Eqs. (1.219) and the fact that cos θ and tan θ are both of the same sign since 0 ≤ θ π. 1 cos θ = p 1 + tan2 θ = s 1 + 4 |H21|2 (H11 − H22)2 = s (H11 − H22)2 + 4 |H21|2 (H11 − H22)2 κ± = ± 1 cos θ = ± s (H11 − H22)2 + 4 |H21|2 (H11 − H22)2 (1.223)
  • 365.
    1.45. DIAGONALIZATION OFA 2 × 2 HERMITIAN MATRIX 109 let us find the eigenvectors of K. We denote as a and b the components of |ψ+i in the basis {|ϕ1i , |ϕ2i}. From Eqs. (1.221, 1.222) this eigenvector must satisfy 1 tan θ e−iϕ tan θ eiϕ −1 a b = 1 cos θ a b of course only one of the two equations is linearly independent since only quotients between the coefficients can be determined, therefore a + b tan θ e−iϕ = a cos θ ⇒ b tan θ e−iϕ = a 1 cos θ − 1 multiplying by eiϕ/2 and defining 2α ≡ θ this equation yields b sin 2α cos 2α e−iϕ/2 = a 1 − cos 2α cos 2α eiϕ/2 b sin 2α e−iϕ/2 = a (1 − cos 2α) eiϕ/2 b (2 sin α cos α) e−iϕ/2 = a 1 − 1 − 2 sin2 α eiϕ/2 2b sin α cos α e−iϕ/2 = 2a sin2 α eiϕ/2 b cos α e−iϕ/2 = a sin α eiϕ/2 in terms of θ we get b cos θ 2 e−iϕ/2 = a sin θ 2 eiϕ/2 (1.224) we demand normalization with the additional requirement of positivity for the coefficient a, so we have |a|2 + |b|2 = 1 ⇒ |a|2 +
  • 370.
    a sin θ 2eiϕ/2 cos θ 2 e−iϕ/2
  • 375.
  • 379.
  • 383.
    2 = 1 ⇒|a|2 + |a|2 tan2 θ 2 = 1 |a|2 1 + tan2 θ 2 = 1 ⇒ |a|2 = cos2 θ 2 so that a = cos θ 2 ≥ 0 since 0 ≤ θ π (1.225) replacing (1.225) in (1.224) we get b cos θ 2 e−iϕ/2 = cos θ 2 sin θ 2 eiϕ/2 ⇒ b = sin θ 2 eiϕ so that the eigenvector |ψ+i′ associated with the eigenvalue κ+ reads |ψ+i′ = a |ϕ1i + b |ϕ2i = cos θ 2 |ϕ1i + sin θ 2 eiϕ |ϕ2i it is clear that |ψ+i ≡ e−iϕ/2 |ψ+i′ is also an eigenvector of K with the same eigenvalue κ+ and this vector looks more symmetrical. Thus, we define the eigenvector |ψ+i as21 |ψ+i = cos θ 2 e−iϕ/2 |ϕ1i + sin θ 2 eiϕ/2 |ϕ2i (1.226) 21 This is equivalent to define the phase of the coefficient a as −ϕ/2 instead of zero, in the process of normalization.
  • 384.
    110 CAPÍTULO 1.LINEAR OR VECTOR SPACES an analogous calculation gives the eigenvector of K corresponding to κ− = −1/ cos θ |ψ−i = − sin θ 2 e−iϕ/2 |ϕ1i + cos θ 2 eiϕ/2 |ϕ2i (1.227) the eigenvalues of H are obtained by combining Eqs. (1.218, 1.223) E± ≡ 1 2 [(H11 + H22) + (H11 − H22) κ±] = 1 2 (H11 + H22) ± (H11 − H22) s (H11 − H22)2 + 4 |H21|2 (H11 − H22)2 # E± ≡ 1 2 (H11 + H22) ± q (H11 − H22)2 + 4 |H21|2 it worths saying that the eigenvalue problem can be solved directly without resorting to the angles θ and ϕ defined in Eq. (1.219, 1.220). This procedure is advantageous only if we have to calculate the eigenvectors as well. 1.45.3. Eigenvalues and eigenvectors of H Let us summarize our results. We consider an hermitian operator R in a two dimensional Hilbert space, and its matrix representation in the orthonormal basis {|ϕ1i , |ϕ2i} H ≡ hϕ1| R |ϕ1i hϕ1| R |ϕ2i hϕ2| R |ϕ1i hϕ2| R |ϕ2i = H11 H12 H21 H22 (1.228) its eigenvalues and eigenvectors are given by E± ≡ 1 2 (H11 + H22) ± q (H11 − H22)2 + 4 |H21|2 (1.229) |ψ+i = cos θ 2 e−iϕ/2 |ϕ1i + sin θ 2 eiϕ/2 |ϕ2i (1.230) |ψ−i = − sin θ 2 e−iϕ/2 |ϕ1i + cos θ 2 eiϕ/2 |ϕ2i (1.231) tan θ = 2 |H21| H11 − H22 , H21 = |H21| eiϕ ; 0 ≤ θ π , 0 ≤ ϕ 2π (1.232) as a matter of consistence we can see that E+ + E− = H11 + H22 = TrH , E+E− = H11H22 − |H12|2 = det H in agreement with Eq. (1.93, 1.94). From Eq. (1.229), the spectrum becomes degenerate i.e. E+ = E− when (H11 − H22)2 + 4 |H21|2 = 0. That is when H11 = H22 and H12 = H21 = 0. So a 2 × 2 hermitian matrix has a degenerate spectrum if and only if it is proportional to the identity. It worths remarking that although functions of θ are expressed simply in terms of the Hij elements by means of Eqs. (1.232), it is not the case when functions of θ/2 appears. Thus, when we do calculations with the eigenvectors (1.230, 1.231), it is convenient to keep the results in terms of θ/2 up to the end of the calculation instead of replacing it in terms of the Hij quantities.
  • 385.
    Capı́tulo 2 Construcción fenomenológicade los postulados de la mecánica cuántica Nuestro presente entendimiento de la naturaleza requiere reevaluar las leyes de la mecánica clásica, especial- mente en lo referente a los fenómenos atómicos y subatómicos. No obstante, existen manifestaciones macroscópicas de los procesos cuánticos. A manera de ejemplo, la existencia misma de los sólidos solo se puede explicar en un contexto cuántico, y los modelos sobre calor especı́fico de los sólidos no se pueden explicar con un modelo clásico. A finales del siglo diecinueve, se identificaban en la fı́sica dos tipos de entidades bien diferenciadas: la materia y la radiación. Las leyes de Newton permitı́an explicar los fenómenos relativos a la materia en la escala macroscópica y las ecuaciones de Maxwell proporcionaban una excelente descripción de la dinámica de la radiación1. Finalmente, la interacción de la materia con la radiación la proporcionaba la ley de fuerza de Lorentz. Es notable el hecho de que la teorı́a de Maxwell habia logrado la unificación de fenómenos que antes se consideraban separados: la electricidad, el magnetismo y la óptica. No obstante, a finales del siglo diecinueve y principios del veinte una serie de experimentos condujeron a reevaluar la estructura fundamental de la materia y además a replantear las leyes que rigen a estas estructuras fundamentales. La mecánica cuántica es entonces el resultado de estos replanteamientos. Vale decir por supuesto que al menos en principio, el mundo macroscópico también se rige por la leyes de la cuántica, si bien para la mayorı́a de fenómenos a escala humana, la Fı́sica clásica representa una descripción mucho más simple y al mismo tiempo bastante adecuada. A continuación se realizará una breve descripción de los experimentos que dieron lugar a las nuevas ideas sobre el mundo microscópico, con el fin de dejar claros los puntos que es necesario reevaluar en la mecánica clásica. La descripción de estos experimentos no pretende ser completa ni exhaustiva, solo pretende mostrar las ideas que éstos nos arrojan sobre el comportamiento de la naturaleza a nivel microscópico (atómico y subatómico). Para un estudio más detallado de estos experimentos el lector puede recurrir a los textos estándar sobre Fı́sica Moderna (ver por ejemplo Ref. [1]). 2.1. La radiación del cuerpo negro Un cuerpo negro tiene la capacidad de absorber toda la radiación que incide sobre él, a su vez esto lo convierte en un emisor perfecto. Utilizando argumentos de la termodinámica y la mecánica estadı́stica, Rayleigh y Jeans predijeron el espectro del cuerpo negro utilizando la distribución de Boltzmann. Sin embargo, las predicciones de Rayleigh y Jeans estaban muy lejos del espectro experimental en el régimen de longitudes de onda corta, fenómeno conocido como la “catástrofe del ultravioleta”. Es bien conocido que la energı́a asociada a una frecuencia particular de la radiación del cuerpo negro se relaciona con la energı́a de una partı́cula cargada en la pared de una cavidad del cuerpo negro oscilando sinusoidalmente a la misma frecuencia. Originalmente, Max Planck cuantizó la energı́a 1 Las ondas mecánicas podı́an explicarse en último término con las leyes de Newton. 111
  • 386.
    112 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS de la partı́cula oscilante asumiendo que cada una de estas partı́culas solo puede tener una energı́a εn que sea múltiplo entero de una energı́a fundamental ε0 = hν siendo ν la frecuencia de oscilación y siendo h una constante universal que se ajusta experimentalmente, por lo tanto εn = nhν , n = 0, 1, 2, 3, 4, . . . (2.1) recalculando el espectro con este postulado, Planck pudo reproducir el espectro del cuerpo negro para todas las longitudes de onda. Posteriormente, Planck observó que esto era equivalente a cuantizar directamente las ondas electromagnéticas estacionarias asociadas a cada frecuencia y que oscilan sinusoidalmente. De hecho, Planck generaliza su postulado diciendo que la Ec. (2.1) describe la energı́a total asociada a cualquier entidad fı́sica cuya única coordenada generalizada efectúa oscilaciones armónicas simples (variaciones sinusoidales en el tiempo). 2.2. El efecto fotoeléctrico Cuando se hace incidir luz ultravioleta sobre la superficie de un metal, se emiten electrones provenientes de dicho metal. A principios del siglo XX, Lenard realizó experimentos en donde los electrones extraı́dos con luz ultravioleta de la superficie metálica (fotocátodo) son acelerados por una diferencia de potencial con respecto a otro electrodo. Al medir la corriente que llegaba al segundo electrodo como función del voltage entre los electrodos, observó que todavı́a llegaba corriente incluso cuando el potencial era retardante para cargas negativas indicando que los electrones son emitidos con energı́a cinética que no es despreciable. La forma de la curva indicó que no todos los fotoelectrones son emitidos con la misma energı́a cinética pero existe un voltaje retardante de corte V = −Vmáx luego del cual cesa la fotocorriente. Este voltage de corte sugiere la existencia de una energı́a máxima bien definida para los fotoelectrones dada por Emáx = eVmáx siendo e la magnitud de la carga electrónica. Los fotoelectrones de máxima energı́a son los que provienen de la superficie del fotocátodo en tanto que los fotoelectrones de menor energı́a provienen del interior del fotocátodo y pierden energı́a cinética al llegar a la superficie, esto nos indica que Emáx es una buena medida de la energı́a transmitida a los electrones en el proceso fotoeléctrico. Lenard encontró además que la corriente fotoeléctrica es directamente proporcional a la intensidad luminosa incidente para voltages acelerantes. Sin embargo, observó también que el potencial de corte retardante V = −Vmáx es independiente de la intensidad luminosa. En consecuencia, la energı́a máxima adquirida por los electrones es independiente de la intensidad luminosa incidente. En el marco de la teorı́a clásica, se puede demostrar que la energı́a cinética promedio de los electrones sometidos a la luz ultravioleta es proporcional al campo eléctrico al cuadrado (asociado a la onda incidente) y por tanto es proporcional a la intensidad incidente. Esto entra en conflicto directo con el hecho de que la energı́a adquirida por los electrones de la superficie del fotocátodo sea independiente de la intensidad luminosa. Un problema más serio surge cuando se intenta calcular el tiempo necesario para que los fotoelectrones adquieran la energı́a suficiente para llegar al otro electrodo. Este tiempo se estimó en unos ∼ 100seg bajo la hipótesis clásica de que la energı́a luminosa se distribuye uniformemente sobre frentes de onda esféricos cuyo centro es la fuente. Experimentos posteriores revelaron que el tiempo de absorción no superaba los ∼ 10−9seg. Lo anterior llevó a Einstein en 1905 a generalizar el postulado de Planck enunciando que el contenido energético de una onda electromagnética de frecuencia ν en una fuente de radiación (onda libre) también puede tener solo valores de la forma nhν siendo n entero no-negativo y ν la frecuencia de la onda que se propaga. Esto implica que al pasar la fuente de un estado de energı́a nhν a otro de energı́a (n − 1) hν, la fuente emite un paquete de energı́a electromagnética con energı́a hν. Einstein propuso además que este paquete de energı́a (fotón) está localizado inicialmente en una pequeña región del espacio y permanece localizado cuando se aleja de la fuente luminosa con velocidad c, en contraste con la expansión caracterı́stica de un frente de onda clásico. Este paquete o cuanto de energı́a denominado fotón posee una energı́a ε = hν. Postuló además que en el proceso fotoeléctrico un cuanto era completamente absorbido por el fotoelectrón. En primera instancia, el hecho de que el cuanto permaneciera localizado y fuese completamente absorbido permitı́a que los fotoelectrones absorbieran la energı́a necesaria para formar la fotocorriente de manera casi ins- tantánea, eliminando la incompatibilidad con el tiempo de absorción que se presentaba con las ondas clásicas.
  • 387.
    2.3. EL EFECTOCOMPTON 113 Por otro lado, definamos ∆E como la energı́a necesaria para que un electrón pueda llegar al otro electrodo, esta será igual a la energı́a necesaria para llegar a la superficie, mas la energı́a W necesaria para salir del material venciendo la fuerzas superficiales atractivas. El mecanismo fotoeléctrico imparte una energı́a hν al fotoelectrón y si esta energı́a es mayor que ∆E el electrón puede escapar de la superfice del fotocátodo. Es claro que para los electrones de la superficie ∆E = W de modo que la máxima energı́a cinética con la que llegan los fotoelectrones al otro electrodo es Emáx = hν − W mostrando claramente que tal energı́a máxima es función lineal de la frecuencia de la radiación incidente, pero es independiente de su intensidad. Estas predicciones fueron corroboradas por Millikan en 1916. 2.3. El efecto compton En 1923, Compton realizó un experimento en el cual un haz aproximadamente monocromático de rayos X de longitud de onda λ0, incidı́a en una placa metálica. Compton encontró que la radiación dispersada contenı́a un pico de intensidad asociado a la longitud de onda λ1 λ0, además del pico asociado a λ0. A la presencia de este pico en λ1 se le conoce como efecto Compton. En la discusión subsecuente nos concentraremos en la explicación del pico de intensidad en λ1. La observaciones mostraban que λ1 aumentaba a medida que se incrementaba el ángulo de dispersión θ, pero era independiente del material de la lámina metálica. Puesto que λ1 es siempre mayor que λ0, la frecuencia ν1 = c/λ1 de la radiación dispersada disminuye al aumentar el ángulo θ de dispersión. Adicionalmente, si asumimos que ν1 es proporcional a la energı́a E1 del cuanto asociado a la radiación (como lo sugiere el efecto fotoeléctrico), la dependencia de E1 con θ es cualitativamente similar a la dependencia angular de la energı́a de una partı́cula dispersada por otra partı́cula. Por supuesto esta dispersión debe ser relativista, puesto que los fotones son eminentemente relativistas. El procedimiento de Compton fué en consecuencia, combinar la teorı́a de la dispersión clásica relativista entre particulas con la relación frecuencia energı́a asumida para el cuanto de radiación (fotón) en el efecto fotoeléctrico. Consideremos entonces un cuanto o paquete localizado asociado a la radiación electromagnética (rayos X en este caso), en la cual se cumple la relación E = hν (2.2) donde además el momento lineal del fotón es p. La energı́a total relativista de una partı́cula de masa en reposo m0 es E = m0c2 q 1 − v2 c2 (2.3) y dado que la velocidad del fotón es c, su masa en reposo debe ser nula. Por tanto, su energı́a E es totalmente cinética. Adicionalmente, la relación entre el momento lineal y la energı́a de una partı́cula relativista está dada por E2 = p2 c2 + m0c2 2 (2.4) puesto que m0 = 0 para el fotón, esta relación se convierte en p = E c = hν c = h λ (2.5) Ahora bien, puesto que la frecuencia ν1 donde se obtiene un pico de intensidad (ν1 ν0) de la radiación dispersada, es independiente del material de la hoja metálica, es razonable suponer que en la dispersión no participa el átomo completo. En consecuencia, otra de las suposiciones fundamentales de Compton, fué que los fotones se dispersaban en virtud de las colisiones entre éstos y los electrones libres en la lámina, que están inicialmente en reposo. Esta suposición es razonable si tenemos en cuenta que un cuanto de rayos X tiene una energı́a mayor
  • 388.
    114 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS en varios órdenes de magnitud a la energı́a de un cuanto de luz ultravioleta, y teniendo en cuenta que a su vez el efecto fotoeléctrico sugiere que la energı́a de un cuanto de luz ultravioleta, es comparable con la energı́a de ligadura del electrón en el metal. Consideraremos entonces una colisión entre un fotón y un electrón libre en reposo. Por simplicidad elegimos el eje X a lo largo del momento lineal incidente p0 del fotón localizado. Denotaremos como (E0, p0) a la energı́a y la magnitud del momento lineal del fotón incidente, (E1, p1) serán la energı́a y el momento lineal del fotón dispersado en un ángulo θ (con respecto a X). Finalmente, (T, p) son la energı́a cinética y el momento lineal del electrón dispersado en un ángulo φ con respecto al eje X. La conservación del momento lineal en X nos dice que p0 = p1 cos θ + p cos φ (2.6) y la conservación del momento lineal en Y nos dice que p1 sin θ = p sin φ (2.7) elevando al cuadrado ambas ecuaciones se obtiene (p0 − p1 cos θ)2 = p2 cos2 φ ; p2 1 sin2 θ = p2 sin2 φ y sumando estas expresiones, obtenemos p2 0 + p2 1 − 2p0p1 cos θ = p2 (2.8) por otro lado, aplicando la conservación de la energı́a total relativista antes y después de la dispersión, se tiene que E0 + m0c2 = E1 + T + m0c2 ⇒ E0 − E1 = T donde m0 es la masa en reposo del electrón. Aplicando la relación (2.5), que es válida solo para el fotón, se encuentra que c (p0 − p1) = T (2.9) Adicionalmente, aplicando la relación (2.4), al electrón dispersado tenemos que T + m0c2 2 = p2 c2 + m0c2 2 ⇒ T2 + 2Tm0c2 = p2 c2 T2 c2 + 2Tm0 = p2 (2.10) sustituyendo p2 y T de las Ecs. (2.8, 2.9) en la Ec. (2.10) resulta c2 (p0 − p1)2 c2 + 2c (p0 − p1) m0 = p2 0 + p2 1 − 2p0p1 cos θ ⇒ −2p0p1 + 2m0c (p0 − p1) = −2p0p1 cos θ ⇒ m0c (p0 − p1) = p0p1 (1 − cos θ) ⇒ (p0 − p1) p0p1 = 1 m0c (1 − cos θ) ⇒ 1 p1 − 1 p0 = 1 m0c (1 − cos θ) multiplicando por h y usando la relación (2.5) para el fotón, queda finalmente (λ1 − λ0) = λC (1 − cos θ) ; λC ≡ h m0c ≃ 0,02426 × 10−8 cm (2.11)
  • 389.
    2.4. ESPECTROSCOPÍA, ESTABILIDADDEL ÁTOMO Y TEORÍA DE BOHR 115 donde λC se denomina la longitud de onda de Compton. La Ec. (2.11) se conoce como ecuación de Compton. Esta ecuación predice que el aumento en la longitud de onda asociada al segundo pico de resonancia con respecto a la longitud de onda incidente, depende solamente del ángulo de dispersión y de la constante universal λC, pero es independiente del material de la hoja metálica y de la longitud de onda incidente. La corroboración experimental fué realizada por diversos autores tales como Bothe, Wilson, Geiger, y Bless entre los años 1923 y 1927. Este experimento además de dar una prueba convincente de la existencia del cuanto de radiación (fotón), muestra que éste puede comportarse como partı́cula en un experimento de dispersión. Vimos anteriormente que el efecto fotoeléctrico también proporciona evidencia de la existencia de los cuantos, que además se suponen localizados como las partı́culas. A priori pareciera darse un retroceso a una imagen corpuscular de la radiación. No obstante, la radiación electromagnética tiene ciertas propiedades como la difracción, que solo puede ser explicada en términos de movimiento ondulatorio. Esto nos conduce a considerar que en la radiación electromagnética el comportamiento ondulatorio y corpuscular coexisten, fenómeno que se conoce como dualidad onda-partı́cula. Experimentos posteriores nos permitirán profundizar sobre esta naturaleza dual en el mundo microscópico. 2.4. El problema espectroscópico, la estabilidad del átomo y la teorı́a de Bohr Con el advenimiento del modelo atómico de Rutherford, en el cual el átomo estaba constituı́do por un pequeño núcleo de carga positiva con la carga negativa (electrones) orbitando en la periferia, surge el problema de la estabilidad del átomo. Esto debido a que la electrodinámica clásica predice que una carga acelerada radı́a emitiendo energı́a. Por tanto, los electrones al orbitar deberı́an radiar perdiendo energı́a y provocando el colapso del electrón hacia el núcleo. El hecho de que la estructura atómica fuese estable constituyó entonces un reto para la Fı́sica de principios del siglo XX. Por otra parte, surgı́a el problema de la discretización de los espectros atómicos. No entraremos en detalles sobre los montajes experimentales para medir estos espectros. Mencionaremos simplemente, que cuando una descarga eléctrica atraviesa una región que contiene un gas monoatómico las colisiones de los átomos con los electrones y con otros átomos hacen que los átomos adquieran una energı́a mayor que la normal. Al regresar a su estado normal, los átomos liberan la energı́a excedente en forma de radiación electromagnética, la cual está compuesta por ondas de diferente longitud de onda. La observación de estas longitudes de onda que componen a la radiación (lı́neas espectrales) mostró que la radiación electromagnética emitida por un átomo libre consiste solo de ciertas longitudes de onda, es decir el espectro es discreto2. Adicionalmente, se observó que cada tipo de átomo tiene su propio espectro, es decir un conjunto caracterı́stico de longitudes de onda, hecho que es de gran importancia práctica. Ahora bien, el espectro del átomo de Hidrógeno es relativamente simple en virtud de la simplicidad de su estructura atómica. En dicho espectro se observa que la distancia en longitudes de onda de dos lı́neas contiguas decrece al disminuir la longitud de onda de las lı́neas hasta llegar a una lı́nea lı́mite de convergencia que denotamos por λ∞ = 3645,6 A. La regularidad y simplicidad de este espectro llevó a buscar fórmulas empı́ricas que revelaran el patrón de longitudes de onda del espectro de emisión. Adicionalmente, se observó que la estructura de las lı́neas espectrales para átomos alcalinos (con un solo electrón en la capa externa), obedece a un patrón similar. Después de muchos análisis se encontró que en términos del número de onda k = λ−1 la fórmula empı́rica k = R 1 (m − a)2 − 1 (n − b)2 describı́a muy bien la distribución de lı́neas espectrales de los átomos alcalinos, donde R, a y b son constantes propias del elemento, en tanto que m y n son enteros positivos. La constante R es conocida como constante de 2 Esto contrasta por ejemplo, con el espectro contı́nuo de la radiación electromagnética emitida por la superficie de los sólidos a alta temperatura.
  • 390.
    116 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS Rydberg. Para el átomo de Hidrógeno en particular, se tiene que a = b = 0 y R ≡ RH = 109677,576 cm−1 y se escribe k = RH 1 m2 − 1 n2 , n m (2.12) las series de números de onda fueron clasificadas de acuerdo a valores fijos de m. Hablamos entonces de la serie de Lyman (m = 1), serie de Balmer (m = 2), Paschen (m = 3), Brackett (m = 4) y Pfund (m = 5). Hemos descrito el espectro de emisión. No obstante, también existe el espectro de absorción, para el cual se usa una fuente que emite un espectro contı́nuo cuya radiación se hace incidir sobre un recipiente de vidrio que contiene el gas monoatómico que se desea investigar. Al medir el espectro que emite el gas monoatómico después de haber absorbido la radiación contı́nua, se observa que el espectro es contı́nuo pero faltan algunas lı́neas muy especı́ficas, y que corresponden a las lı́neas del espectro que han sido suprimidas del espectro contı́nuo emitido por la fuente, y que debieron ser absorbidas por los átomos del gas. Se observó que para cada elemento, a cada lı́nea del espectro de absorción le corresponde una lı́nea en el espectro de emisión, pero lo recı́proco no es cierto: solo ciertas lı́neas de emisión se manifiestan en el espectro de absorción. En el espectro de absorción del átomo de Hidrógeno, normalmente solo aparecen las lı́neas correspondientes a la serie de Lyman; pero cuando el gas está a muy alta temperatura (por ejemplo en la superficie de una estrella), se observan las lı́neas de la serie de Balmer en el espectro de absorción. 2.4.1. La teorı́a de Bohr Los postulados que describiremos a continuación, enunciados por Niels Bohr en 1913, permitieron dar cuenta razonablemente de los siguientes fenómenos: (a) La estabilidad del átomo, (b) La naturaleza discreta de los espectros de emisión y absorción, (c) La descripción especı́fica del espectro del átomo de Hidrógeno, (d) La diferencia entre el espectro de absorción y el de emisión. Tales postulados fueron los siguientes: 1. En el átomo, un electrón se mueve en una órbita circular alrededor del núcleo, bajo la influencia de la interacción coulombiana entre el núcleo y el electrón, y obedeciendo a las leyes de la mecánica clásica. 2. De la infinidad de órbitas clásicamente permitidas, el electrón solo puede moverse en aquellas para las cuales el momento angular orbital L es un multiplo entero de la cantidad ~ ≡ h/2π. Esto es L = n~ = nh/2π , n = 1, 2, 3, . . . (2.13) 3. A pesar de que el electrón está en permanente aceleración, se mueve en una órbita permitida sin radiar energı́a electromagnética, de modo que su energı́a total E, permanece constante. 4. Un electrón emite energı́a electromagnética, solo cuando se mueve de una órbita permitida (con energı́a Ei) a otra órbita permitida (con energı́a Ef ), de manera discontı́nua. La frecuencia de la radiación permitida está dada por ν = Ei − Ef h (2.14) Con estos postulados, Bohr da cuenta de la estabilidad del átomo e introduce la cuantización del momento angular, en contraste con los postulados de cuantización antes descritos, los cuales involucran la cuantización de la energı́a. Nótese que el cuarto postulado Ec. (2.14) está ı́ntimamente relacionado con el postulado de Einstein, ya que E = Ei − Ef es la energı́a del cuanto (fotón) que se emite, y por tanto E = hν.
  • 391.
    2.4. ESPECTROSCOPÍA, ESTABILIDADDEL ÁTOMO Y TEORÍA DE BOHR 117 2.4.2. Predicciones de la teorı́a de Bohr para átomos con un electrón Vamos a estudiar el caso de un átomo de masa M y carga +Ze, con un electrón de masa m y carga −e. Este es el caso del Hidrógeno (Z = 1), el helio ionizado He+ (Z = 2), el litio doblemente ionizado Li++(Z = 3), etc. Supongamos que el electrón se mueve en trayectoria circular alrededor del núcleo. Por simplicidad, asumiremos que el núcleo permanece fijo en un sistema de referencia inercial, lo cual es razonable teniendo en cuenta que la masa del núcleo es mucho mayor que la del electrón. La condición de estabilidad de esta órbita circular es que la fuerza coulombiana iguale a la fuerza centrı́peta necesaria para mantener la trayectoria circular. Ze2 r2 = m v2 r (2.15) siendo v la rapidez del electrón y r el radio del cı́rculo. El momento angular está dado por L = mvr aplicando la condición de cuantización Ec. (2.13), se tiene que mvr = n~ ⇒ v = n~ mr , n = 1, 2, 3, 4, . . . (2.16) y sustituyendo esta rapidez en la Ec. (2.15) queda Ze2 = mrv2 = mr n2~2 m2r2 = n2~2 mr despejando r vemos que el radio estarı́a también cuantizado r = n2~2 mZe2 ; n = 1, 2, 3, 4, . . . (2.17) reemplazando (2.17) en (2.16) tenemos v = n~ m 1 r = n~ m mZe2 n2~2 = Ze2 n~ ; n = 1, 2, 3, 4, . . . (2.18) vemos que tanto la velocidad como el radio están cuantizados como consecuencia de la cuantización del momento angular. Similarmente es fácil ver que los postulados de Bohr también conducen a la cuantización de la energı́a. Para verlo, tendremos en cuenta que la energı́a potencial coulombiana está dada por V = − Ze2 r donde el menos se debe a la naturaleza atractiva de la interacción. Por otro lado, la energı́a cinética (no-relativista) se puede calcular empleando la Ec. (2.15) T = 1 2 mv2 = Ze2 2r (2.19) sumando estas dos energı́as y empleando la Ec. (2.17) la energı́a total queda E = T + V = − Ze2 2r = −T = − Ze2 2 mZe2 n2~2 E = − mZ2e4 2n2~2 ; n = 1, 2, 3, 4, . . . (2.20) cuando se calcula el radio de la órbita menor (n = 1), empleando los valores numéricos apropiados (con Z = 1) en la Ec. (2.17) se obtiene r0 = ~2 me2 ≡ a0 ≈ 0,53 × 10−10 m (2.21)
  • 392.
    118 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS es claro de la Ec. (2.17) que este es el menor radio posible. Adicionalmente, este valor concuerda de forma razonable con las predicciones para el modelo atómico de Rutherford. Ası́ mismo, la Ec. (2.20) nos dice que cuando n = 1 obtenemos el estado de menor energı́a, de modo que n = 1 corresponde al estado base o estado normal del átomo de Hidrógeno. El valor del radio para este estado de menor energı́a se denomina radio de Bohr. Finalmente, la velocidad del electrón es máxima cuando n = 1 como se aprecia en la Ec. (2.18). Tomando Z = n = 1 y los valores numéricos apropiados en la Ec. (2.18) esta velocidad está dada por v ≈ 2,2 × 106 m/seg 0,01c como esta velocidad es menos del uno por ciento de la velocidad de la luz, se espera que una descripción no- relativista sea adecuada, esto es además consistente con la suposición no-relativista dada en la Ec. (2.19). Sin embargo, la descripción no-relativista deja de ser adecuada para valores grandes de Z. Por otra parte, se observa que al incrementarse el número cuántico a partir del estado base n = 1, la energı́a se hace menos negativa, y por tanto se incrementa. Claramente, E = 0 es una energı́a lı́mite (asociada a n → ∞), y los estados de energı́a se aproximan arbitrariamente a E = 0 cuando n crece. En consecuencia, los estados permitidos son todos de energı́a negativa. Esto se debe a que energı́as mayores que cero, corresponden a electrones libres que ya no están ligados al átomo, y en estado libre la energı́a de los electrones corresponde a un espectro contı́nuo. Es de enfatizar sin embargo, que la teorı́a de Bohr solo nos habla de electrones ligados a un átomo. Queda entonces por calcular las frecuencias permitidas para la radiación emitida, para lo cual apelamos al cuarto postulado Ec. (2.14) que combinado con la Ec. (2.20) conduce a ν = Ei − Ef h = mZ2e4 4π~3 1 n2 f − 1 n2 i # (2.22) que en términos del número de onda k = λ−1 = ν/c nos da k = RH 1 n2 f − 1 n2 i # ; RH ≡ me4 4πc~3 Z2 (2.23) expresión que coincide con la fórmula empı́rica (2.12), en donde una evaluación numérica de la constante RH en la Ec. (2.23), coincidia razonablemente con el valor numérico que se habı́a obtenido empı́ricamente RH ≃ 109677,576 cm−1. La teorı́a de Bohr nos dice entonces que existe una energı́a asociada al estado base o de mı́nima energı́a para el electrón, que corresponde a n = 1. En una descarga eléctrica el átomo puede absorber energı́a y generar una transición a un estado de energı́a mayor o estado excitado con n 1. Una vez excitado, el átomo emitirá este exceso de energı́a para regresar al estado base. En general, esta desexcitación se logra mediante una serie de transiciones en las que el electrón pasa sucesivamente por estados de energı́a cada vez más baja hasta llegar al estado base. En cada transición se emitirá radiación electromagnética con frecuencias dadas por la Ec. (2.22). Por ejemplo, un electrón puede ser excitado al estado con n = 6, y pasar sucesivamente por los estados n = 4, 2, 1 emitiendo tres lı́neas del espectro atómico, con frecuencias dadas por (2.22). En la infinidad de excitaciones y desexcitaciones de todos los átomos que se efectúan en la medida del espectro de emisión, se presentan todas las transiciones posibles y por tanto se exhibe el espectro completo. Estas predicciones fueron corroboradas experimentalmente para el hidrógeno (Z = 1) y para el He+ (Z = 2). Ası́ mismo, la teorı́a puede explicar el espectro de absorción para átomos con un electrón. Ya que solo ciertas transiciones son posibles, el átomo solo absorberá cantidades discretas de energı́a de la radiación incidente. La radiación incidente consiste de haces de cuantos de todas las frecuencias, en donde solo los fotones con frecuencias dadas por (2.22) pueden ser absorbidos. No obstante, los átomos en general están inicialmente en el estado base n = 1, de manera que solo pueden presentarse procesos de absorción de n = 1 a n 1, razón por la cual se observarán normalmente solo las lı́neas asociadas a la serie de Lymann en el caso del Hidrógeno. Cuando el gas está a una temperatura elevada, es posible que algunos átomos estén inicialmente en el primer estado excitado n = 2 de modo que también serán observables las lı́neas de la serie de Balmer. La temperatura necesaria para
  • 393.
    2.5. LAS REGLASDE CUANTIZACIÓN DE WILSON Y SOMMERFELD 119 que exista una población razonable de átomos en el estado n = 2 se puede calcular utilizando la estadı́stica de Boltzmann, vemos que una fracción 1/e de los átomos estará en el estado n = 2 para temperaturas del orden de 105K, temperatura tı́pica de algunas superficies estelares. En consecuencia, la teorı́a de Bohr puede también explicar la diferencia entre el espectro de absorción y el de emisión. Todas las predicciones de la teorı́a de Bohr, se ajustan aún mejor cuando se tiene en cuenta la corrección de que la masa nuclear es finita y se realiza la reducción del problema de dos cuerpos al problema de un cuerpo con masa igual a la masa reducida del sistema (ver sección 12.1). Posteriormente, la cuantización de los estados de energı́a de los electrones en el átomo fué corroborada por los experimentos de Franck y Hertz. 2.5. Las reglas de cuantización de Wilson y Sommerfeld En las descripciones anteriores, vemos que las cuantizaciones introducidas hasta el momento obedecen a pro- blemas fenomenológicos a priori diferentes y cada proceso de cuantización se ha introducido para cada fenómeno especı́fico. Las reglas de cuantización de Wilson y Sommerfeld constituyen un intento de unificar al menos par- cialmente estos diversos postulados de cuantización. Una primera observación es el hecho de que la cuantización de la energı́a de Planck está asociada a oscila- dores armónicos y la de Bohr está asociada a órbitas circulares regulares. Es decir, ambas están asociadas a un movimiento periódico. En mecánica clásica, los movimientos periódicos son particularmente transparentes en la formulación de Hamilton-Jacobi de la mecánica clásica, particularmente en la variante conocida como variables acción-ángulo. Por esta razón, la formulación que veremos a continuación está basada en el formalismo de las variables acción ángulo. La regla de cuantización de Wilson y Sommerfeld se enuncia de la siguiente manera: Sea q una coordenada generalizada de un sistema fı́sico que varı́a periódicamente con el tiempo, y sea pq su momento canónicamente conjugado. Este par de variables canónicas q y pq obedecen a la siguiente regla de cuantización I pq dq = nqh (2.24) siendo nq un número cuántico entero y la integral cerrada se efectúa sobre un periodo de movimiento. Nótese que el producto de una coordenada generalizada por su momento conjugado siempre tiene unidades de momento angular, y por eso la cuantización está directamente relacionada con la constante de Planck, la cual tiene unidades de momento angular. Veremos que la cuantización de Bohr y de Planck surgen como casos especiales de esta regla de cuantización, y que además permite ampliar el dominio de la mecánica cuántica. Sin embargo, es necesario aclarar que la regla de Wilson y Sommerfeld no puede explicar la cuantización de Einstein o Compton, puesto que en estos casos los cuantos son esencialmente libres y no poseen un movimiento periódico. 2.5.1. El átomo de Bohr bajo las reglas de Wilson y Sommerfeld Retomemos el átomo de Bohr con un electrón de masa m en una órbita circular de radio r0 con velocidad constante. Usaremos la coordenada generalizada θ (la coordenada r no es independiente de modo que no se incluye como coordenada generalizada), la coordenada θ es claramente periódica si consideramos que la rapidez del electrón es uniforme. El momento canónicamente conjugado a θ es el momento angular orbital L = mr2 0θ̇, y dado que θ̇ = cte por ser periódico el movimiento, vemos que el momento angular es una constante de movimiento. Al aplicar la regla de cuantización (2.24) a q = θ y pq = L tenemos I L dθ = 2πL = nqh ⇒ L = nh 2π = n~ que reproduce la regla de cuantización de Bohr.
  • 394.
    120 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS 2.5.2. Cuantización de Planck con las reglas de Wilson y Sommerfeld Consideremos un oscilador armónico simple de masa m, frecuencia angular ω = 2πν y amplitud x0. La coordenada generalizada x es periódica y viene dada por3 x = x0 sin 2πνt = x0 sin ωt el momento canónicamente conjugado a x es p = mẋ, de modo que p = mx0ω cos ωt (2.25) y la regla de cuantización (2.24) nos da I p dx = mx0ω I cos ωt dx = nh (2.26) para poder evaluar esta integral debemos expresar cos ωt en función de x x2 = x2 0 sin2 ωt = x2 0 1 − cos2 ωt ⇒ cos2 ωt = x2 0 − x2 x2 0 cos ωt = ± p x2 0 − x2 x0 (2.27) es claro que el signo de cos ωt (que es el signo del momento p de acuerdo con la Ec. 2.25), viene dado por el sentido instantáneo de movimiento. Vamos a expresar el movimiento periódico completo partiendo del origen hacia la derecha y llegando de nuevo al origen desde la izquierda. En la primera etapa desde cero hasta x0, la velocidad (y por tanto cos ωt) es positiva. Desde x0 hasta cero cos ωt es negativo, al igual que desde cero hasta −x0. Finalmente cos ωt ≥ 0 en el intervalo desde −x0 hasta cero. Tenemos entonces I cos ωt dx = Z x0 0 |cos ωt| dx + Z 0 x0 (− |cos ωt|) dx + Z −x0 0 (− |cos ωt|) dx + Z 0 −x0 |cos ωt| dx = Z x0 0 |cos ωt| dx + Z x0 0 |cos ωt| dx − Z −x0 0 |cos ωt| dx − Z −x0 0 |cos ωt| dx = 2 Z x0 0 p x2 0 − x2 x0 dx − 2 Z −x0 0 p x2 0 − x2 x0 dx donde hemos usado la Ec. (2.27) en el último paso. Haciendo x′ = −x en la segunda integral se tiene I cos ωt dx = 2 Z x0 0 p x2 0 − x2 x0 dx − 2 Z x0 0 p x2 0 − x′2 x0 −dx′ y siendo x′ variable muda, ambas integrales son idénticas de modo que I cos ωt dx = 4 Z x0 0 p x2 0 − x2 x0 dx = 4 x0 x p x2 0 − x2 2 + x2 0 2 arcsin x x0 #x0 0 = 2x0 (arcsin 1 − arcsin 0) = πx0 con lo cual la integral en (2.26) queda I p dx = πmωx2 0 = 2π ω mω2x2 0 2 = 1 ν mω2x2 0 2 ahora bien, recordando que la energı́a total del oscilador armónico es igual a la energı́a potencial máxima E = (1/2) mω2x2 0 (ya que en la posición de máxima elongación no hay energı́a cinética), y usando la regla de cuantización (2.26), tenemos que I p dx = E ν = nh ⇒ E = nhν que es la regla de cuantización de Planck. 3 Naturalmente puede haber una fase, pero esto no es relevante para nuestros propósitos.
  • 395.
    2.5. LAS REGLASDE CUANTIZACIÓN DE WILSON Y SOMMERFELD 121 2.5.3. La teorı́a relativista de Sommerfeld y la estructura fina del átomo de Hidrógeno Por medio de espectrómetros de gran resolución, fué posible determinar que los átomos poseen una estructura fina en su espectro. En particular, la estructura fina del átomo de Hidrógeno poseı́a una separación en componentes de una misma lı́nea espectral, unas 104 veces menor que la separación entre lı́neas espectrales (en términos de número de onda). Basado en la cuantización de Wilson y Sommerfeld, el último de éstos adicionó un postulado de la siguiente forma: Lo que se suponı́a como un solo estado del átomo de Hidrógeno, consiste en realidad de varios estados de energı́as aproximadamente iguales, asociados a órbitas elı́pticas de diferente excentricidad. Sin embargo, el movimiento se sigue considerando periódico, de modo que las reglas de cuantización de Wilson y Sommerfeld permanecen válidas. En primer lugar, Sommerfeld evaluó las consecuencias de este postulado adicional en términos de la regla de cuantización de Wilson y Sommerfeld en el marco de la mecánica clásica no-relativista. Utilizando coordenadas polares r y θ, y teniendo en cuenta que r ya no es constante, entonces r y θ se considerarán coordenadas generali- zadas con sus momentos canónicamente conjugados. Por tanto, habrá dos condiciones de cuantización, a diferencia del caso de órbita circular en el cual hay solo una. Puesto que pr = mṙ las condiciones de cuantización quedan en la forma I L dθ = nθh ; I prdr = nrh la primera condición nos provee de la regla de cuantización ya conocida del momento angular L = nθ~ , nθ = 1, 2, 3, . . . en tanto que la segunda condición de cuantización queda en la forma L a b − 1 = nr~ , nr = 0, 1, 2, 3, . . . siendo a y b los semiejes mayor y menor de la elipse respectivamente.. La relación de estabilidad de la órbita elı́ptica análoga a la Ec. (2.15) para órbita circular, conduce a las relaciones de cuantización para los semiejes y la energı́a de los electrones en las órbitas elı́pticas a = n2~2 µZe2 , b = a nθ n , E = − µZ2e4 2n2~2 ; n ≡ nθ + nr , n, nθ = 1, 2, 3, . . . (2.28) donde µ es la masa reducida del electrón (es decir ya se tuvo en cuenta el efecto de masa finita del núcleo). El número cuántico n se denomina número cuántico principal, puesto que la energı́a de los estados (en aproximación no- relativista) solo depende de él. Por otro lado, nθ se conoce como número cuántico azimutal. Obsérvese que el semieje mayor coincide con el radio de la órbita circular de Bohr, como se observa al comparar la primera de las Ecs. (2.28) con la Ec. (2.17). Adicionalmente, la segunda de las Ecs. (2.28) muestra que la forma de la elipse está determinada por el cociente nθ/n. Cuando n = nθ, las órbitas son cı́rculos de radio a y nos reducimos a las órbitas de Bohr. Es fácil ver que para un n fijo, hay n valores diferentes para el número cuántico azimutal nθ. En consecuencia, hay n órbitas elı́pticas (una de ellas es circular) asociadas a un mismo valor de la energı́a (la cual solo depende de n), se dice entonces que las órbitas posibles para un n dado están degeneradas. Por otra parte, el estimativo del orden de magnitud de la velocidad máxima de un electrón en una órbita de Bohr, nos dió que v/c ≃ 10−2. Esto implicarı́a que la corrección relativista a la energı́a total, debida a la variación relativista de la masa electrónica sea del orden de (v/c)2 ≃ 10−4, que a su vez es el orden de magnitud de separación entre componentes de la misma lı́nea espectral (con respecto a la separación de las lı́neas). Esto sugiere que la degeneración pueda removerse aplicando la corrreción relativista al modelo. Una vez hechas tales consideraciones, Sommerfeld encontró la siguiente expresión para la energı́a total de un electrón que se mueve en una órbita elı́ptica caracterizada por los números cuánticos n y nθ E = − µZ2e4 2n2~2 1 + α2Z2 n 1 nθ − 3 4n
  • 396.
    122 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS donde la constante adimensional α se define como α ≡ e2 ~c ≃ 1 137 la dependencia con nθ de la corrección relativista, introduce la remoción de la degeneración necesaria para explicar la estructura fina del átomo de Hidrógeno. No obstante, existı́an algunas transiciones que no se observaban experimentalmente. Por ejemplo, una transición del estado (n, nθ) = (3, 2) al estado (1, 1) es posible. Pero la transición del estado (3, 3) al estado (1, 1) no se observa en un solo paso. Sin embargo, la última transición (que nos lleva al estado base) se puede hacer en dos transiciones directas que sı́ están permitidas: (3, 3) → (2, 2) → (1, 1). Las observaciones experimentales nos llevan a la siguiente regla de selección: Una transición entre dos estados caracterizados por los números cuánticos (ni, nθi ) y nf , nθf solo es posible si se cumple la condición nθi − nθf = ±1 esta regla de selección debe ser postulada por aparte en la teorı́a relativista de Sommerfeld. 2.6. Los postulados de De Broglie Los modelos de Einstein y Compton sugerı́an que la radiación (fotones) podı́a tener comportamiento de partı́cu- la. Esencialmente, la naturaleza corpuscular de la radiación se manifiesta en la interacción radiación materia (al menos a nivel microscópico), en tanto que el patrón ondulatorio se manifiesta en la forma en que la radiación se propaga. Ahora bien, si la radiación puede tener comportamiento corpuscular, es natural apelar a un principio de simetrı́a y preguntarse si las partı́culas (la materia) pueden exhibir comportamiento ondulatorio. Este principio de simetrı́a fué el que introdujo de Broglie en 1924. Puesto que el comportamiento ondulatorio de las partı́culas no se habı́a observado, era necesario que las predicciones sobre la longitud de la onda asociada a la partı́cula (que De Broglie llamó onda piloto), fuesen mucho menores que todas las dimensiones tı́picas de la mayorı́a de objetos materiales. Para estimar la longitud de las ondas piloto asociadas a una partı́cula, De Broglie supuso que la relación entre la energı́a total relativista E y la frecuencia ν de esta onda, era idéntica a la relación de Einstein para la radiación electromagnética ν = E h (2.29) y que la longitud de onda λ se puede calcular con la relación usual entre λ, ν y la velocidad w de propagación de la onda λ = w ν (2.30) para la radiación electromagnética w = c, y por tanto λ = c ν = hc E (2.31) adicionalmente, la Ec. (2.5) nos dice que el momento lineal de un fotón es p = E/c, de modo que λ queda en la forma λ = h p (2.32) En sı́ntesis, De Broglie postuló que las Ecs. (2.32, 2.29), que hasta aquı́ eran válidas solo para fotones, también nos dan la longitud de onda y la frecuencia de las ondas piloto asociadas a una partı́cula de momento lineal p y energı́a relativista E, de modo que λ = h p ; ν = E h (2.33)
  • 397.
    2.6. LOS POSTULADOSDE DE BROGLIE 123 nótese que la derivación de la Ec. (2.32) provino de hacer w = c en la Ec. (2.30), lo cual no es válido para partı́culas con masa diferente de cero, al menos si suponemos que la velocidad de la onda está relacionada con la velocidad de la partı́cula. Sin embargo, la relación (2.32) es independiente de la velocidad de la onda y fué la relación que De Broglie extrapoló para partı́culas. 2.6.1. Propiedades de las ondas piloto Es de esperarse que la velocidad de la onda piloto sea la velocidad de la partı́cula, o al menos que haya una relación simple entre las dos. Combinando las Ecs. (2.30, 2.33) vamos a calcular la velocidad de propagación w de las ondas piloto asociadas a la partı́cula w = νλ = E h h p = E p (2.34) y utilizando la expresión para la energı́a total relativista tenemos w = q c2p2 + (m0c2)2 p = c q p2 + (m0c)2 p w = c s 1 + m0c p 2 (2.35) observamos que w es mayor que c. No obstante, esto no supone una contradicción ya que w está asociado a Figura 2.1: Apariencia de una onda piloto, asociada a una partı́cula. Puesto que suponemos que una partı́cula está localizada, su paquete de onda asociado debe estar también localizado. El perfil ψ (x, t) del paquete, se dibuja aquı́ para una configuración instantánea evaluada en t = t0. la velocidad de fase de las ondas piloto. Es de esperarse que el perfil instantáneo de una onda piloto tenga una apariencia similar a la mostrada en la Fig. 2.1. Es decir, la onda piloto debe tener un valor distinto de cero solo en cierta vecindad espacial, ya que es lógico que la localización de la onda piloto esté asociada a la localización de la partı́cula. Para formar un pulso de ondas como el de la Fig. 2.1 es necesario superponer un número infinito de ondas monocromáticas, constituyendo un paquete de ondas. Para dicho paquete, debe distinguirse entre la velocidad de fase w y la velocidad de grupo wg, del paquete4. Es posible demostrar que estas velocidades vienen 4 Las caracterı́sticas de un paquete de ondas, su velocidad de fase y de grupo, serán consideradas en detalle en las secciones 2.11 y 2.13.
  • 398.
    124 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS dadas por w = ν k ; wg = dν dk además, es la velocidad de grupo la que no debe superar a la velocidad de la luz, es decir la que está asociada a los fenómenos de transporte. Calculemos entonces la velocidad de grupo de las ondas piloto de una partı́cula en movimiento. Partimos de las Ecs. (2.33) ν = E h ; k ≡ 1 λ = p h por tanto dν = dE h ; dk = dp h wg = dν dk = dE dp (2.36) utilizando de nuevo la expresión relativista de la energı́a, tenemos E2 = c2 p2 + m0c2 2 ⇒ 2E dE = 2pc2 dp ⇒ dE dp = c2 p E (2.37) reemplazando (2.37) en (2.36) se tiene wg = c2 p E (2.38) y teniendo en cuenta las expresiones relativistas E = m0γc2 , p = m0γvp ; γ ≡ 1 q 1 − v2 p c2 (2.39) donde vp es la velocidad de la partı́cula y m0 su masa en reposo. Sustituyendo (2.39) en (2.38), se obtiene wg = c2 m0γvp m0γc2 = vp (2.40) de modo que la velocidad de grupo, que es la que contiene las propiedades de propagación de la onda, es igual a la velocidad de la partı́cula, mostrando la consistencia de los postulados de De Broglie. Por otro lado, las Ecs. (2.34, 2.38) nos dicen la relación que hay entre la velocidad de fase y la velocidad de grupo (o velocidad de la partı́cula) w = c2 wg = c2 vp nótese que si usáramos las Ecs. (2.31, 2.29), en lugar de las Ecs. (2.32, 2.29) obtendrı́amos w = ν k = νλ = E h hc E = c ; wg = dν dk = dE/h dE/hc = c relación que solo es válida para cuantos que se mueven a la velocidad de la luz. Ya habı́amos enfatizado que la Ec. (2.32) se obtenı́a usando w = c en la Ec. (2.30), lo cual solo era válido para la radiación. Sin embargo, la Ec. (2.32) era independiente de la velocidad, y por esa razón se podı́a extrapolar a partı́culas materiales. En contraste, la Ec. (2.31) depende explı́citamente de la velocidad c, y no puede ser extrapolada directamente.
  • 399.
    2.6. LOS POSTULADOSDE DE BROGLIE 125 2.6.2. Corroboración experimental de los postulados de De Broglie Para poder medir experimentalmente la longitud de la onda piloto asociada a una partı́cula, debemos encontrar un sistema para el cual λ = h/p sea del orden de magnitud de las dimensiones caracterı́sticas de dicho sistema. Consideremos primero una partı́cula de polvo con radio tı́pico r y densidad ρ que se mueve con una velocidad no relativista v. Utilizando valores tı́picos tomaremos r = 10−4 cm , ρ = 10gr/cm3 , v = 1cm/seg , h = 6,62 × 10−27 erg − seg de modo que p = mv = 4 3 πr3 ρv ≃ 4 × 10−11 gr − cm − seg−1 λ = h p = 6,62 × 10−27gr − cm2 − seg−2 − seg 4 × 10−11gr − cm − seg−1 ≃ 1,6 × 10−16 cm esta longitud es ¡108 veces menor que un radio atómico!. Por tanto, no es viable para una exploración experimental. Consideremos ahora un electrón cuya energı́a sea del orden de 10eV = 1,6 × 10−11ergs, esta es aproximada- mente, la energı́a cinética de un electrón en el átomo de Hidrógeno. Para esta energı́a cinética la velocidad es mucho menor que c y se puede considerar no relativista. Por tanto, si asumimos un electrón libre no relativista con esta energı́a, su impulso viene dado por la expresión no-relativista p = √ 2mT ≃ 3,9 × 10−8 cm esta longitud es casi un orden de magnitud mayor que un radio atómico tı́pico, y aproximadamente del orden de magnitud de la distancia interatómica en un cristal5. Esto sugiere que un electrón incidiendo en un cristal puede presentar fenómenos de difracción, en donde las “rendijas” son los intersticios interatómicos. No describiremos aquı́ los montajes experimentales que condujeron a la detección del patrón de difracción de los electrones. Basta con decir que los experimentos de Davidson y Germer en 1927 tomaron el patrón de difracción de los electrones que inciden en un cristal. El patrón anular de difracción de los electrones por cristales, no se puede atribuir a la interferencia entre dos o más electrones distintos, sino a las ondas asociadas a un solo electrón y que provienen de distintas partes del cristal. Esto se debe a que en el montaje experimental se empleó un haz de tan baja intensidad, que los electrones son emitidos uno por uno, eliminando ası́ las posibles interferencias entre electrones distintos. 2.6.3. Las reglas de cuantización de Bohr a la luz de los postulados de De Broglie Hemos visto que la longitud de la onda piloto de un electrón es aproximadamente λ ≃ 4× 10−8cm (asumiendo que su energı́a cinética es aproximadamente la del electrón en el estado base del átomo de Hidrógeno). Por otro lado, el radio de Bohr es la distancia tı́pica del electrón al núcleo en el estado base del átomo de Hidrógeno y está dada por r0 ≃ 0,5×10−8cm. En consecuencia, λ es casi un orden de magnitud mayor al radio de Bohr y por tanto, es de esperarse que el comportamiento ondulatorio sea esencial en el entendimiento de las órbitas en el átomo de Hidrógeno. Sin embargo, las consideraciones anteriores se realizaron para electrones libres que no repiten su órbita periódicamente, razón por la cual su onda piloto asociada debı́a ser una onda viajera que acompañara a la partı́cula en su propagación. Ahora bien, un electrón en una órbita atómica posee un movimiento periódico y no posee una dirección neta de propagación6, con lo cual esperarı́amos que su onda piloto asociada no tenga una dirección neta de propagación. Esto nos conduce de manera natural a considerar que la onda piloto asociada a un electrón en una órbita atómica periódica debe ser una onda estacionaria i.e. con nodos fijos. 5 Además, esta longitud de onda es muy grande con respecto a todas las dimensiones esperadas de la partı́cula asociada (el electrón). 6 Por ejemplo, si promediamos el vector r sobre un periodo completo, tomando como origen el núcleo atómico, dicho promedio es nulo.
  • 400.
    126 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS Veremos que la combinación de la regla de cuantización de Bohr junto con los postulados de De Broglie, nos conducen a ondas piloto estacionarias. La regla de cuantización de Bohr Ec. (2.16) se escribe como mvr = pr = nh 2π ; n = 1, 2, 3, . . . siendo p el momento lineal del electrón en la órbita permitida de radio r. Al sustituir el momento lineal por el primer postulado de De Broglie de la Ec. (2.33) tenemos hr λ = nh 2π ; n = 1, 2, 3, . . . 2πr = nλ ; n = 1, 2, 3, . . . (2.41) de manera que el perı́metro de las órbitas permitidas es un múltiplo entero de longitudes de onda de De Broglie. La Ec. (2.41) es precisamente la condición para que las ondas piloto del electrón que se mueve repetidamente sobre su órbita, se combinen coherentemente con las ondas piloto de recorridos anteriores, de modo que la superposición forme una onda estacionaria. De hecho, si se violara la condición (2.41), entonces cuando se superpongan las ondas asociadas a un gran número de recorridos, su interferencia será destructiva y se cancelará su intensidad promedio. Puesto que la intensidad de la onda piloto es una medida de la ubicación de la partı́cula, lo anterior implica que el electrón no podrı́a estar en esa órbita. La Fig. 2.2 ilustra el patrón de intensidad ψ (x, t0) de la onda estacionaria asociada a las tres primeras órbitas de Bohr, para un tiempo fijo t = t0. Cuando el tiempo evoluciona cambia la magnitud y el signo de los patrones oscilantes, pero la ubicación de los nodos es la misma en todo tiempo, ya que éstos son fijos en una onda estacionaria. Por otra parte, es posible demostrar que la exigencia de ondas piloto estacionarias para partı́culas en movimien- to periódico, conduce a que dicha partı́cula deba satisfacer las reglas de cuantización de Wilson y Sommerfeld, Ec. (2.24). Finalmente, las caracterı́sticas independientes del tiempo de la onda estacionaria permiten explicar porqué el electrón en movimiento periódico orbital no emite radiación electromagnética. 2.7. Sı́ntesis de los resultados experimentales Newton consideró que la luz era un haz de corpúsculos que podı́an reflejarse en un espejo cuando “rebotan”. Sin embargo, los experimentos que mostraron fenómenos como la interferencia y la difracción, establecieron la naturaleza ondulatoria de la luz a mediados del siglo XIX, lo cual permitió la fusión de la óptica con la electricidad y el magnetismo. Los fenómenos de polarización de la luz pueden interpretarse como una manifestación del carácter vectorial del campo eléctrico. No obstante, el estudio de la radiación del cuerpo negro sugirió la hipótesis de la cuantización de la energı́a de las ondas electromagnéticas estacionarias (osciladores armónicos) que se generaban al interior del cuerpo negro. La energı́a de estos osciladores es de la forma E = nhν con n = 0, 1, 2, ...; siendo ν la frecuencia de cada oscilador. Esta cuantización permite predecir adecuadamente el espectro de emisión del cuerpo negro empleando la estadı́stica de Boltzmann. Por otra parte, el estudio del efecto fotoeléctrico sugirió que las ondas electromagnéticas libres que se propagaban también estaban constituı́das por paquetes de energı́a que indican valores discretos de ésta. Cada paquete denominado fotón tendrá una energı́a dada por E = hν. Esto permitió a Einstein comprender porqué la energı́a máxima adquirida por los electrones era independiente de la intensidad de la onda electromagnética incidente y porqué este energı́a se adquirı́a en tiempos tan cortos. Para ello era necesario además que el paquete estuviera localizado en una pequeña región del espacio y que permaneciera localizado a medida que se aleja de la fuente, a diferencia de las ondas clásicas que se extienden cuando se alejan de la fuente. Más adelante, mediante la irradiación de una placa metálica con rayos X, compton muestra que estos cuantos pueden dispersarse mediante la colisión con un electrón libre estacionario, emulando una colisión tipo “bolas de billar”. De esta forma pudo predecir el pico en el espectro asociado a una longitud de onda mayor que la incidente. En sı́ntesis, estos experimentos están mostrando la naturaleza discreta de la energı́a que se propaga en una onda electromagnética y el hecho de que el cuanto asociado se puede comportar como partı́cula. Adicionalmente, tanto
  • 401.
    2.7. SÍNTESIS DELOS RESULTADOS EXPERIMENTALES 127 Figura 2.2: Patrones de onda estacionaria (lineas punteadas) asociados a las tres primeras órbitas de Bohr (lineas continuas). El perfil se dibuja para una configuración instantánea evaluada en t = t0. la cuantización como la colisión de fotones con electrones libres pudo explicarse satisfactoriamente relacionando los parámetros de partı́cula (energı́a E y momento p del fotón) con los parámetros de onda (frecuencia ν y número
  • 402.
    128 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS de onda k del fotón) de la radiación, en la forma E = hν ; p = ~k ; ~ ≡ h 2π ; h ≃ 6,62 × 10−34 Joul × seg (2.42) De otra parte, los experimentos espectroscópicos nos muestran que la radiación emitida o absorbida debida a transiciones electrónicas en los átomos, solo nos arroja cuantos con valores discretos de longitud de onda, y por tanto de energı́a. Esto implica que los niveles de energı́a permitidos para un electrón ligado a un átomo también están cuantizados. Lo anterior llevó a Bohr a postular la cuantización del momento angular asociado al electrón junto con la hipótesis de ausencia de radiación, en contraste con las predicciones de la mecánica clásica. La cuantización de los estados de energı́a atómicos fué corroborada por los experimentos de Franck y Hertz, en tanto que las reglas de cuantización fueron perfeccionadas por Wilson y Sommerfeld. Una vez caracterizada la dualidad onda partı́cula de la radiación, es natural preguntarse si esta dualidad está también presente en los objetos fı́sicos que tradicionalmente llamamos materia, por ejemplo en los electrones. Esta pregunta condujo a De Broglie a postular que el movimiento de una partı́cula está gobernado por la propagación ondulatoria de ciertas ondas piloto asociadas con la partı́cula. Asumiendo que la energı́a E y el momento p de la partı́cula también cumplen las relaciones (2.42) dadas para el fotón, De Broglie estimó la frecuencia y la longitud de onda de las ondas piloto λ = h/p ; ν = E/h (2.43) Este postulado fué confirmado por los experimentos de Davidson y Germer sobre difracción de electrones. Naturalmente, el momento y la energı́a totales se deben conservar en cada proceso, en donde los momentos y energı́as de la radiación y la materia están dados por los postulados anteriores. Vamos ahora a examinar en más detalle el experimento de Young de la doble rendija. Veremos que este análisis aportará ideas adicionales con respecto al comportamiento de la naturaleza a nivel subatómico. 2.8. El experimento de Young de la doble rendija Hemos visto que es necesario incorporar aspectos corpusculares al comportamiento de la radiación electro- magnética, la pregunta es si debemos abandonar la teorı́a ondulatoria de la radiación electromagnética. Veremos que no es posible con una teorı́a puramente corpuscular explicar todos los fenómenos relacionados con los fotones, de manera que tendremos que incorporar tanto los aspectos ondulatorios como corpusculares de la radiación. El dispositivo utilizado se muestra en la Fig. 2.3, y consiste en una fuente aproximadamente monocromática frente a la cual se coloca una placa opaca P con dos rendijas pequeñas F1 y F2 (pequeñas con respecto a la longitud de onda emitida), detrás de esta placa opaca se ubica una pantalla de observación O que es usualmente una placa fotográfica. Es importante que las dimensiones de las rendijas sean menores que la longitud de onda, ya que de lo contrario las intensidades recogidas en la pantalla O serán compatibles con la óptica geométrica que puede explicarse con una teorı́a corpuscular. En contraste, el fenómeno de difracción que se presenta cuando las rendijas son pequeñas nos muestra la naturaleza ondulatoria del fenómeno. Cuando obstruı́mos la rendija F2 obtenemos sobre la pantalla O una distribución de intensidades I1 (x) que es el patrón de difracción generado por la rendija F1. Análogamente, al cerrar F1 obtenemos el patrón de intensidades I2 (x). Si ahora abrimos las dos rendijas simultáneamente obtendremos un nuevo patrón de intensidades I (x). La primera observación es que la intensidad resultante NO es la suma de las intensidades obtenidas con una sola rendija I (x) 6= I1 (x) + I2 (x) ¿como podrı́an explicarse estos resultados a la luz de una teorı́a corpuscular?. Es bien conocido que el patrón de Difracción generado por una sola rendija no puede ser explicado con una teorı́a corpuscular cuando la rendija tiene una dimensión menor que la longitud de onda incidente. Sin embargo, veremos que aún cuando pudiésemos explicar el fenómeno de una rendija con una teorı́a corpuscular, el patrón de interferencia que se forma cuando se abren las dos rendijas entra en conflicto con una teorı́a puramente corpuscular. Asumamos que el patrón de
  • 403.
    2.8. EL EXPERIMENTODE YOUNG DE LA DOBLE RENDIJA 129 Figura 2.3: (a) Montaje del experimento de Young con doble rendija. (b) Patrón de intensidades asociado a la exposición por una sola rendija. La lı́nea punteada indica la suma de los dos patrones de intensidad. (c) Patrón de intensidades obtenido con la apertura simultánea de las dos rendijas. El contraste con la gráfica punteada nos muestra que la intensidad resultante no es la suma de las intensidades obtenidas con la apertura de una sola rendija, revelando la existencia de un patrón de interferencia. interferencia que se observa, es generado por la interacción de tipo corpuscular entre los fotones que pasan por la rendija F1 con aquellos que pasan por la rendija F2. De ser ası́, tendrı́amos que si regulamos la potencia de la fuente de tal manera que los fotones salgan prácticamente uno por uno, se eliminarı́an estas interacciones y por tanto deberı́a desaparecer este patrón de interferencia, incluso si se espera mucho tiempo para que se depositen mucho fotones sobre O. Veamos ahora cual serı́a la predicción de una teorı́a puramente ondulatoria. La teorı́a ondulatoria predice que la intensidad en un punto dado I (x) es proporcional a la amplitud al cuadrado del campo eléctrico evaluado en tal punto. Cuando las dos rendijas están abiertas es claro que el campo total resultante en tal punto es la superposición de los dos campos generados por la onda que pasa por cada rendija E (x) = E1 (x) + E2 (x)
  • 404.
    130 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS la intensidad es entonces proporcional a la amplitud del campo eléctrico total al cuadrado I (x) ∝ |E (x)|2 = |E1 (x) + E2 (x)|2 I1 (x) ∝ |E1 (x)|2 ; I2 (x) ∝ |E2 (x)|2 ⇒ I (x) 6= I1 (x) + I2 (x) si E1 (x) y E2 (x) se escriben en notación compleja, el término de interferencia resultante dependerá de la diferencia en las fases complejas asociadas a E1 (x) y E2 (x). Esta interferencia explica el patrón de franjas que ocurre en el fenómeno de difracción por dos rendijas. Si disminuı́mos la potencia de la fuente, las franjas de interferencia disminuirán en intensidad pero no desaparecerán. De por sı́ este fue uno de los experimentos determinantes en favor de la teorı́a ondulatoria en el siglo XIX. Sin embargo, los resultados obtenidos cuando la potencia de la fuente es tal que los fotones se liberan uno a uno, son realmente sorprendentes y entran en conflicto con la teorı́a puramente corpuscular pero también con la teorı́a puramente ondulatoria. Por una parte, si hacemos que el tiempo de exposición sea muy largo de manera que una gran cantidad de fotones impactan la placa fotográfica, vemos que las franjas de interferencia no desaparecen a pesar de haber eliminado la interacción entre los fotones. Por tanto, la teorı́a corpuscular no puede predecir este fenómeno. La teorı́a ondulatoria en cambio ofrece una explicación satisfactoria al respecto. De otra parte, si el tiempo de exposición lo hacemos muy corto de modo que solo unos pocos fotones impacten la pantalla, vemos que los impactos sobre la placa son muy localizados como se esperarı́a de un comportamiento corpuscular, y no se observa el patrón de interferencia con baja intensidad que predecirı́a la teorı́a ondulatoria. Mas aún si el experimento para tiempos cortos de exposición se repite muchas veces para las mismas condiciones iniciales (el mismo dispositivo con fotones de la misma energı́a y momento, ası́ como igual tiempo de exposición), vemos que los pocos impactos localizados en cada experimento pueden tener una distribución muy diferente. Esto indica que el proceso tiene un carácter altamente aleatorio que no es atribuı́ble al desconocimiento o falta de control en las condiciones iniciales. Si en cambio repetimos el experimento muchas veces bajo las mismas condiciones iniciales pero para tiempos de exposición muy grandes, en los cuales muchos fotones han impactado la placa, vemos que el patrón contı́nuo de intensidades se forma según lo indicado en la teorı́a ondulatoria, es decir con los patrones adecuados de interferencia. Para este caso el fenómeno es altamente reproducible, es decir la distribución de intensidades es esencialmente la misma en cada experimento. Si se hacen experimentos para tiempos de exposición especı́ficos y estos tiempos de exposición se van incre- mentando gradualmente, vemos que a medida que el tiempo de exposición aumenta el experimento se vuelve más reproducible, pasando desde resultados muy aleatorios para tiempos de exposición cortos (pocos fotones inciden- tes) hasta resultados altamente reproducibles para tiempos muy largos de exposición (muchos fotones incidentes). Esto revela que la ley fundamental que rige al fenómeno debe ser de naturaleza probabilı́stica, ya que un modelo probabilı́stico en general falla en sus predicciones cuando una muestra posee muy pocos elementos o eventos, pero es altamente predictivo cuando la muestra consta de un enorme número de elementos o de eventos. En nuestro caso los eventos son los impactos de los fotones sobre la placa y lo que vemos es que el patrón de interferencia se va construyendo a medida que los fotones van impactando la placa. Un aspecto que no hemos tocado hasta aquı́, es el referente a la determinación de la rendija por la cual pasa cada fotón. Si queremos determinar por cual rendija pasa cada uno de los fotones que se emiten uno por uno, podemos colocar dos detectores (digamos dos fotomultiplicadores) sobre cada rendija F1 y F2, en tal caso podemos determinar completamente la rendija a través de la cual pasa cada fotón, ya que cuando se emite un fotón una señal es registrada en uno de los detectores pero no en ambos al tiempo. Sin embargo, en este caso todos los fotones detectados son absorbidos por los detectores y no alcanzan la pantalla. En otras palabras, la completa determinación de la rendija por la cual pasa cada fotón destruyó completamente la información sobre el patrón de difracción. Por otro lado, si dejamos un detector solo en F1 y dejamos abierto F2 veremos que cuando han pasado muchos fotones cerca del 50 % han sido detectados (con respecto al experimento anterior). Concluı́mos que los demás han pasado por F2 pero entonces el patrón de difracción que se construirá gradualmente sobre la pantalla será el correspondiente a la difracción por una rendija, no se observará entonces el fenómeno de interferencia
  • 405.
    2.8. EL EXPERIMENTODE YOUNG DE LA DOBLE RENDIJA 131 inherente al experimento con dos rendijas. Una vez más el proceso de medición (determinación de la rendija de paso) ha alterado la evolución posterior del sistema. En lo referente al carácter probabilı́stico cuántico, es necesario distinguirlo de los aspectos probabilı́sticos que se emplean usualmente en mecánica clásica. En la termodinámica y especialmente en la mecánica estadı́stica clásica, se utilizan conceptos de probabilidad y estadı́stica debido a que en la práctica (experimental) no es posible determinar o controlar las condiciones iniciales de muchas partı́culas, aunado con la dificultad práctica (teórica) de resolver un gran número de ecuaciones diferenciales acopladas. Se asume sin embargo en las teorı́as clásicas que si conozco todas las condiciones iniciales puedo al menos en principio predecir las trayectorias exactas de las partı́culas y por tanto de mi sistema como un todo. En cuántica nos vemos avocados a usar la probabilidad incluso con el conocimiento y/o control de las condiciones iniciales del sistema, estamos hablando entonces de un comportamiento probabilı́stico esencial e inherente a las leyes de la naturaleza, al menos en nuestra presente interpretación de los fenómenos. 2.8.1. Interpretación mecano-cuántica de la dualidad onda partı́cula Hemos visto que tanto los aspectos corpusculares como los ondulatorios son indispensables para un correcto entendimiento de los experimentos de Young con doble rendija. Dado que en mecánica clásica estos aspectos son mutuamente excluyentes, será necesario replantearse las ideas de la mecánica clásica, las cuales después de todo tuvieron su semilla en los fenómenos macroscópicos. Veamos a la luz de los resultados anteriores que aspectos deben ser revaluados De la discusión anterior hemos visto que cuando colocamos un fotomultiplicador (o dos) para detectar por cual rendija van a pasar los electrones, afectamos de manera fundamental al sistema produciendo un cambio drástico en el resultado final debido a que los fotones detectados se absorben y no alcanzan la pantalla. Vemos entonces que el proceso de medición afecta de forma fundamental al sistema que se mide. En mecánica clásica, si bien es necesario perturbar al sistema para poder medirlo, está implı́cito que esta perturbación se puede hacer arbitrariamente pequeña al menos en principio. En mecánica cuántica éste y otros experimentos nos indicarán que cuando se realiza un proceso de medición existe una cierta “perturbación fundamental” que no puede ser minimizada y que altera de manera considerable al sistema que se mide. Por otro lado, hemos visto que aunque los fotones se envı́en uno por uno, eliminando de esta forma la interacción entre fotones, un fotón parece comportarse diferente si están abiertas las dos rendijas con respecto al caso en que una sola de ellas está abierta, de no ser ası́ la intensidad resultante cuando las dos están abiertas serı́a la suma de las intensidades obtenidas cuando se abre cada una. Adicionalmente, ya hemos visto que si intentamos determinar por cual rendija pasan los fotones, evitamos que estos alcancen la pantalla. Esto se puede replantear diciendo que es imposible observar el patrón de interferencia y al mismo tiempo conocer por cual rendija pasó cada fotón. Esta afirmación será reforzada más adelante cuando discutamos el principio de incertidumbre de Heisenberg. Para resolver esta paradoja es necesario abandonar la idea de que cada fotón pasará inevitablemente por una rendija especı́fica, lo cual nos lleva a su vez a cuestionar el concepto de trayectoria, tan firmemente establecido en la mecánica clásica. Ahora bien, hemos visto que cuando unos pocos fotones han impactado la pantalla, la distribución de estos fotones no es reproducible a pesar de que los experimentos se repitan bajo las mismas condiciones iniciales. Esto implica que para un fotón dado no podemos predecir con total certeza en qué punto golpeará a la pantalla incluso si conocemos sus condiciones iniciales. En consecuencia, el conocimiento de las condiciones iniciales de un sistema no determina completamente el movimiento subsecuente de éste. No obstante, el hecho de que el mismo patrón de interferencia se construya cuando el número de fotones es muy alto, nos indica que las condiciones iniciales nos pueden determinar una distribución de probabilidad que sı́ puede ser especificada por alguna ecuación dinámica. En este caso especı́fico, la probabilidad de que un fotón golpee la pantalla dentro de un intervalo entre el punto x y el punto x + dx, es proporcional a I (x) dx calculado con la teorı́a ondulatoria, es decir será proporcional a |E (x)|2 dx. Nótese que el principio de superposición que rige el comportamiento de los fenómenos ópticos clásicos está basado en el hecho de que las ecuaciones de Maxwell sin fuentes son ecuaciones lineales y homogéneas, para
  • 406.
    132 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS las cuales vale el principio de superposición, si E1 y E2 son soluciones de las Ecs. de Maxwell sin fuentes, una combinación lineal de ellas también lo es. Los anteriores hechos se pueden entonces postular en la siguiente forma: Los aspectos corpusculares y ondulatorios de la luz son inseparables. De modo que la luz se comporta si- multáneamente como onda y como flujo de partı́culas. Las predicciones sobre el comportamiento del fotón son solo de carácter probabilı́stico. El comportamiento ondulatorio nos dictamina la distribución de probabilidad de su manifestación como partı́cula (fotón). La información fı́sica sobre el fotón en un momento dado está determinada por la componente E (r, t) de la onda electromagnética que es solución de las ecuaciones de Maxwell. El campo E (r, t) caracteriza al estado de los fotones en el tiempo t. Dicho campo se interpreta como la amplitud de proba- bilidad de que un fotón aparezca en el punto r en el tiempo t. Esto implica que la correspondiente probabilidad de que un fotón esté en el volumen d3r centrado en r es proporcional a |E (r, t)|2 d3r. Más adelante veremos que la amplitud de probabilidad E (r, t) tendrá su análogo para la materia en la deno- minada función de onda ψ (r, t). Si bien existen muchas analogı́as entre E (r, t) y ψ (r, t) también existen algunas diferencias importantes, por ejemplo E (r, t) no caracteriza completamente al estado de un fotón, en tanto que la función de onda caracteriza completamente el estado de una partı́cula sin espı́n. La función de onda es esencialmen- te compleja en tanto que E se hace complejo solo por conveniencia. La teorı́a cuántica completa para los fotones (electrodinámica cuántica) debe tener en cuenta el carácter eminentemente relativista de las ecuaciones de Maxwell y además corresponde a la cuantización de un medio que es clásicamente contı́nuo (campos electromagnéticos). En contraste, la mecánica cuántica para partı́culas corresponde a la cuantización de un medio que clásicamente se considera discreto (partı́culas puntuales) y que en muchos casos se puede tratar como no-relativista. Aquı́ solo trabajaremos la mecánica cuántica no relativista de medios clásicamente discretos y por tanto no trabajaremos el problema concerniente al proceso matemático de cuantización del fotón. 2.9. Proceso de medición, preparación de un sistema y el principio de la descomposición espectral Vamos a examinar otro experimento de óptica que arrojará muchas luces sobre las ideas relativas al proceso de medición en cuántica. La Fig. 2.4, muestra el montaje que queremos estudiar. Asumamos que hacemos incidir una onda plana monocromática de una fuente sobre un polarizador P, elegiremos el eje z como el eje de propagación de la onda electromagnética y asumiremos que el polarizador P se ubica en el plano xy. Paralelo al plano xy colocaremos un analizador A que transmitirá luz polarizada a lo largo de ux y absorberá luz polarizada a lo largo de uy. Asumiremos que el experimento se realizará en condiciones en donde sea válida la óptica clásica, es decir cuando el haz de luz es muy intenso. En este caso, cuando la onda pasa por P queda polarizada en una dirección especı́fica up caracterizada por up = cos θ ux + sin θ uy la onda plana monocromática que sale del polarizador P está caracterizada por el campo eléctrico E (r, t) = E0upei(kz−ωt) = E0 cos θei(kz−ωt) ux + E0 sin θ ei(kz−ωt) uy (2.44) E0 es la amplitud (constante) de la onda polarizada. La intensidad es proporcional a |E0|2 . Cuando la onda polarizada pasa por el analizador su campo eléctrico vendrá dado por E′ (r, t) = E′ 0uxei(kz−ωt) = E0 cos θ uxei(kz−ωt) que surge básicamente de la eliminación de la componente a lo largo de uy en la Ec. (2.44). La intensidad de la onda que pasó el analizador está dada por |E′ 0|2 es decir I′ = I cos2 θ
  • 407.
    2.9. MEDICIÓN YPREPARACIÓN DE UN SISTEMA: DESCOMPOSICIÓN ESPECTRAL 133 Figura 2.4: (a) Montaje experimental para medidas de polarización. En z 0 tenemos luz no polarizada que en z = 0 se polariza en la dirección up. El analizador A suprimirá la componente uy del campo eléctrico polarizado. resultado conocido como la ley de Malus. Nos preguntamos ahora por lo que ocurre a nivel cuántico. Es decir, cuando la intensidad de la fuente es tan baja que los fotones se emiten uno a uno, de manera que la cuantización de la radiación se hace manifiesta. Podemos colocar un detector de fotones detrás del analizador para mirar los resultados. Retomaremos para ello los resultados de las discusiones anteriores. En primera instancia, debido a la existencia de un cuanto indivisible (el fotón) el detector no registra una fracción de fotón. O bien el fotón cruza el analizador o bien es absorbido completamente por él. Adicionalmente, no podemos predecir con total certeza si un cierto fotón incidente sobre el analizador cruzará o será absorbido por éste. Solo podremos conocer la probabilidad de que un evento especı́fico de estos ocurra. Veremos sin embargo que en ciertos casos especı́ficos, podremos hacer predicciones con total certeza. Cuando el número total de fotones es muy grande, es decir cuando ha pasado suficiente tiempo, se construirá un patrón reproducible de probabilidad equivalente al que se obtiene para tiempos cortos con un haz de alta intensidad. En sı́ntesis debe generarse un patrón reproducible (y por tanto predecible) que corresponda además al lı́mite clásico. Es decir, si N es el número (grande) de fotones entonces un número dado por N cos2 θ de fotones cruzará el analizador. Nótese que el aparato de medida (analizador) solo puede dar algunos resultados especı́ficos que llamaremos resultados propios o autoresultados. En este experimento solo hay dos resultados posibles: el fotón pasa el analizador o es absorbido por él. Hay entonces una cuantización del resultado, lo cual es muy diferente al escenario clásico en el cual la intensidad puede variar de manera contı́nua desde 0 hasta I cuando el ángulo θ se varı́a de forma contı́nua. El experimento muestra además el siguiente resultado, si el fotón está polarizado a lo largo de ux dicho fotón pasará con toda certeza el analizador (con probabilidad 1). Análogamente, si el fotón está polarizado a lo largo de uy hay una certeza total de que este fotón será absorbido (probabilidad cero para pasar). Estas aseveraciones requieren naturalmente de una repetición de una gran cantidad de experimentos que muestren la naturaleza
  • 408.
    134 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS probabilı́stica para fotones con estas polarizaciones. Adicionalmente, se observa que estos son los únicos estados de polarización que conducen a una total certeza en la medida. Por esta razón llamaremos a estos estados de polarización estados propios o autoestados. Vemos además que a cada resultado propio le corresponde un estado propio, el resultado propio “fotón que cruza” está asociado con el estado propio de polarización a lo largo de ux. El resultado propio “fotón que se absorbe” está asociado a fotones con polarización uy. En otras palabras, para un estado propio tenemos total certeza de obtener su correspondiente resultado propio. Matemáticamente podemos describir nuestros dos estados propios como u(1) p = ux ; u(2) p = uy La siguiente pregunta obvia es ¿cuál es la probabilidad de obtener un resultado propio dado, cuando el estado es una superposición de los estados propios? es decir cuando el estado de polarización del fotón es arbitrario i.e. up = cos θ ux + sin θ uy = cos θ u(1) p + sin θ u(2) p (2.45) para obtener la distribución de probabilidad es necesario tener una gran cantidad de eventos para cada estado de polarización. Esto se logra midiendo muchos fotones que poseen las mismas condiciones iniciales7 y se encuentra experimentalmente que para un número N (grande) de fotones con polarización dada por un ángulo θ en (2.45) un número N cos2 θ de ellos pasará, y N sin2 θ de ellos será absorbido. Por tanto, un fotón especı́fico con polarización definida por θ tiene una probabilidad P (1) = cos2 θ de ser transmitido y una posibilidad P (2) = sin2 θ de ser absorbido. Esto coincide con la ley clásica de Malus como esperábamos cuando el número de fotones es grande. Lo anterior junto con la Ec. (2.45), nos indica que la probabilidad de obtener un cierto resultado propio es proporcional al cuadrado del valor absoluto del coeficiente del estado propio asociado, al coeficiente lo llamamos la amplitud de probabilidad, las amplitudes de probabilidad A (i) y las probabilidades P (i) para cada resultado propio son en este caso A (1) = cos θ = D u(1) p
  • 411.
    upi ; P(1) = cos2 θ =
  • 414.
  • 417.
  • 420.
    2 A (2) =sin θ = D u(2) p
  • 423.
    upi ; P(2) = sin2 θ =
  • 426.
  • 429.
  • 432.
    2 P (1) +P (2) = cos2 θ + sin2 θ = 1 en algunos casos será necesario colocar una constante de proporcionalidad para garantizar que la suma de las probabilidades de todos los resultados propios sea uno. Esto nos induce a postular que si tenemos un conjunto de autoresultados {Ri} asociados a autoestados {ψi} un estado arbitrario se escribirá como superposición de los autoestados ψ = X i ciψi (2.46) y la probabilidad de obtener un autoresultado Rk será P (Rk) = |ck|2 P i |ci|2 (2.47) o equivalentemente P (Rk) = |hψk| ψi|2 hψ| ψi (2.48) donde el denominador me asegura la conservación de la probabilidad X i P (Ri) = 1 7 Nótese que el polarizador tiene el papel de reproducir las mismas condiciones iniciales en cada conjunto de experimentos.
  • 433.
    2.10. DUALIDAD ONDAPARTÍCULA PARA LA MATERIA 135 puesto que el conjunto de todos los autoresultados es por definición el conjunto de todos los resultados experimen- tales que podemos obtener al medir el sistema. Esta afirmación se denomina el principio de descomposición espectral. El ejemplo de los fotones polarizados nos indica además que la descomposición espectral especı́fica depende del tipo de instrumento de medición dado que hay que utilizar los autoestados que corresponden a este aparato. Por ejemplo, si el analizador (aparato de medición) tiene una orientación diferente, los autoestados estarán definidos según esta nueva dirección. Si en vez de un analizador tenemos un medidor de otra variable fı́sica (por ejemplo el espı́n) los autoresultados deben definirse correspondientemente y por lo tanto los autoestados. Supongamos que dos fotones poseen la misma polarización pero se diferencian en otros observables fı́sicos (mo- mento, espı́n, etc.), un aparato que mide polarización solo puede dicernir los diferentes valores de este observable, por tanto si existen otros observables que caracterizan a mi partı́cula, al autovalor de polarización {a}, le corres- ponde mas de un autoestado ya que todos los autoestados con polarización {a} están asociados a este autovalor sin importar cuales sean los valores de los otros observables. Decimos que los autoestados están degenerados con respecto al observable o autovalor {a} lo cual según la presente discusión indica que solo tenemos una información parcial sobre el sistema. Volveremos sobre el tema de la degeneración más adelante. La consistencia de estos resultados se puede examinar poniendo un segundo analizador A′ después de A y que permita el paso de fotones con polarización en ux. Dado que todos los fotones que pasaron por A quedaron “prepa- rados” en el estado de polarización ux, todos estos fotones están en un solo autoestado del nuevo analizador A′ con autoresultado “el fotón pasa”. Por tanto, todos los fotones que pasaron por A deben pasar por A′. Similarmente, si A′ está orientado según uy, todos los fotones que vienen de A deben ser absorbidos en A′. Estas predicciones están confirmadas por los experimentos. Analicemos ahora un aspecto de la medición directamente asociado con la naturaleza cuántica de la radiación. Al ser el fotón un cuanto indivisible solo existe la posibilidad de transmisión o absorción, esto desembocó en el hecho de que a partir de un estado arbitrario de polarización, hay un cambio abrupto luego de la medición para los fotones que pasan, pues estos pasan de la polarización up a la polarización ux que corresponde a un autoestado de mi aparato. Existe entonces una perturbación fundamental que altera el estado del sistema y que no puede ser disminuı́da. Nótese que después de la medición (preparación del fotón en un autoestado) tenemos una información adicional “el fotón ha pasado el analizador”. Lo anterior es entonces una confirmación de que el proceso de medición perturba de manera fundamental el estado del sistema. Podrı́amos en este punto postular que luego del proceso de medición, el sistema queda preparado en un estado propio definido por el sistema mismo y por el aparato de medición. 2.10. Dualidad onda partı́cula para la materia Hemos visto que de acuerdo con los postulados de De Broglie, la materia al igual que los fotones exhibe un comportamiento dual onda partı́cula. La corroboración experimental de estos postulados se realizó a través de los experimentos de Davidsson y Germer, ası́ como los experimentos de G. P. Thomson (ambos sobre difracción de electrones), y los experimentos de Estermann, Frisch y Stern concernientes a la difracción de átomos de Helio. Adicionalmente, De Broglie postuló que si bien la onda asociada a una partı́cula libre era una onda viajera (nodos en movimiento), para un electrón en un átomo que esté ligado al núcleo atómico y que recorre su órbita periódicamente, su onda piloto debe estar asociada a una onda estacionaria (nodos fijos). Esta interpretación permitió dar una explicación a las reglas de cuantización de Bohr, demostrando que las órbitas permitidas en un átomo son aquellas que corresponden a un perı́metro circular con un número entero de longitudes de ondas estacionarias. Además para órbitas no circulares la exigencia de ondas estacionarias resultó equivalente a las reglas de cuantización de Wilson y Sommerfeld, en donde los niveles permitidos de energı́a aparecen como los análogos de los modos normales de una cuerda vibrante. Recordemos además que dentro de sus postulados De Broglie asume que la energı́a E y el momento p de una
  • 434.
    136 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS partı́cula material posee la siguiente relación con sus parámetros de onda E = hν = ~ω ; p = ~k (2.49) siendo ν, ω, k la frecuencia, frecuencia angular y número de onda respectivamente. La correspondiente longitud de onda es λ = 2π |k| = h |p| (2.50) una estimación de la longitud de onda de la materia ordinaria nos permite comprender porqué no observamos la naturaleza ondulatoria de la materia ordinaria en el mundo macroscópico. En virtud de la gran simetrı́a que parece existir entre la radiación y la materia, vamos a incorporar las ideas ya recogidas de los experimentos ópticos para incorporarlas a la naturaleza de las partı́culas materiales. Estas extrapolaciones están soportadas en el hecho de que experimentos similares a los ópticos se pueden realizar con los electrones y otras partı́culas materiales, y observar que el comportamiento es muy similar al mostrado por los fotones. Comenzaremos entonces por mencionar que el concepto clásico de trayectoria será sustituı́do por el concepto de una distribución dinámica (dependiente del tiempo) de probabilidad de que la partı́cula esté en cierta región del espacio. Para ello será necesario encontrar una amplitud de probabilidad ψ (r, t) que estará asociada a un campo escalar. A esta amplitud de probabilidad se le conoce como función de onda y me define el estado de una partı́cula en un instante dado, es decir contiene toda la información posible sobre la partı́cula. La probabilidad de encontrar a la partı́cula en un volumen d3r está dada por dP (r, t) = C |ψ (r, t)|2 d3 r donde C es una constante de normalización. Puesto que los experimentos muestran que esta distribución de probabilidad presenta las propiedades ondulatorias, es necesario que la ecuación de movimiento que la genera sea lineal y homogénea para que se cumpla el principio de superposición que se requiere para los fenómenos de interferencia. Es claro que estos fenómenos de interferencia se verán reflejados en la probabilidad (al igual que en la intensidad en los fenómenos ópticos), al elevar al cuadrado la cantidad ψ (r) (el análogo a E (r, t) en óptica). Dado que la partı́cula debe estar siempre en algún lugar, es claro que la probabilidad total debe ser igual a la unidad Z C |ψ (r, t)|2 d3 r = 1 (2.51) esto nos indica entonces que los estados fı́sicos ψ (r, t) deben ser funciones de cuadrado integrable en todas las regiones accesibles a la partı́cula (es posible que ciertas condiciones fı́sicas hagan que algunas regiones no sean accesibles). En otras palabras, la integral sobre el volumen accesible de la partı́cula debe ser convergente. Asumiremos además que se cumple el principio de descomposición espectral aplicado a la medida de una cantidad fı́sica arbitraria. Esto significa que (a) El resultado de la medida debe pertenecer a un conjunto de autoresultados {a}. (b) Con cada autovalor a se asocia un autoestado, es decir una autofunción ψa (r). Esta autofunción cumple la condición de que si ψ (r, t0) = ψa (r) siendo t0 el instante en el cual se realiza la medida, el resultado de tal medida nos dará con toda certeza el autovalor a. (c) Para todo estado ψ (r, t) la probabilidad Pa de obtener el autovalor a cuando se realiza una medida en el tiempo t0, se encuentra descomponiendo ψ (r, t) en los autoestados ψa (r, t) ψ (r, t0) = X a caψa (r) ; Pa = |ca|2 P b |cb|2 = |hψa |ψi|2 hψ |ψi ; X a Pa = 1 en virtud de la arbitrariedad del estado inicial ψ (r, t0), lo anterior implica que los autoestados ψa (r) deben ser completos, es decir deben formar una base para el conjunto de todos los estados fı́sicos posibles, esto nos llevará de manera natural al concepto de observable. (d) Si la medida nos arroja un autovalor a, la partı́cula quedará
  • 435.
    2.11. ASPECTOS ONDULATORIOSDE UNA PARTÍCULA MATERIAL 137 en su autoestado asociado ψa (r). (e) La ecuación que describe la evolución del sistema (evolución temporal de la amplitud de probabilidad) debe ser lineal y homogénea en ψ. Debe tener soluciones de naturaleza ondulatoria compatibles con las relaciones de De Broglie, en la siguiente sección estudiaremos con más detalle estas propiedades. Es importante observar que cuando realizamos el paso de suplantar la trayectoria de una partı́cula (clásicamente puntual), por una distribución dinámica de probabilidad (un campo) estamos reemplazando un estado clásico de partı́cula puntual de seis parámetros en cada tiempo (tres coordenadas de posición y tres de velocidad), por un estado cuántico determinado por un número infinito de parámetros: el valor de la función de onda en cada punto del espacio (y en el tiempo dado). El hecho de que la distribución de probabilidad dependa del tiempo nos llevará al concepto de propagación de la onda asociada con la partı́cula. A manera de ejemplo, en el experimento de la doble rendija de Young cuando se observa el patrón de interferencia no poseemos información sobre la rendija por la cual pasó cada fotón (también vale para electrones u otras partı́culas materiales), en realidad la onda asociada cruza por ambas rendijas y solo podemos calcular la probabilidad de que pase por una de ellas. Es importante mencionar sin embargo, que la simetrı́a materia radiación exhibida hasta el momento posee una excepción importante: los fotones son en general emitidos (creados) o absorbidos (destruı́dos) durante un experimento. En contraste, las partı́culas materiales no se crean ni se destruyen en los experimentos tı́picos. Por ejemplo, un electrón emitido por un filamento caliente ya existı́a previamente en el filamento. De la misma forma un electrón absorbido en un detector no desaparece, simplemente se vuelve parte de un átomo del detector o de una corriente en éste. En realidad la teorı́a de la relatividad predice que es posible la creación y aniquilación de partı́culas materiales: por ejemplo un fotón de alta energı́a que pasa cerca a un átomo puede crear un par electrón positrón (partı́cula antipartı́cula). Recı́procamente, una colisión electrón positrón aniquila a ambas partı́culas emitiendo un fotón, esta conversión radiación materia o viceversa es posible gracias a la equivalencia energética de la masa. Sin embargo, en el lı́mite no relativista la materia no se puede crear ni destruı́r, lo cual nos lleva a una ley importante de conservación del número de partı́culas. En particular, para sistemas de una partı́cula podemos hacer la afirmación de que la partı́cula está en alguna parte para todo tiempo, lo cual nos indica una conservación de la probabilidad (la integral de volumen 2.51 debe ser la unidad para todo tiempo). Resumamos entonces las diferencias importantes entre materia y radiación que nos conducen a que la teorı́a cuántica para la materia es más sencilla. (a) Los fotones son irremediablemente relativistas, la materia en cambio puede estar en un régimen no relativista y de hecho para sólidos a temperaturas normales los electrones y núcleos tienen velocidades mucho menores que la de la luz. Por tanto, para la materia tiene sentido una teorı́a cuántica no relativista pero no para la radiación. (b) La naturaleza relativista de los fotones (y de la materia a altas energı́as) conduce a que el número de fotones no se conserva en el tiempo, por tanto la distribución de probabilidad debe colapsar para tiempos anteriores a la emisión y posteriores a la absorción, la Ec. (2.51) no es válida para todo tiempo y debe incorporarse una ecuación o ecuaciones que me den cuenta de la dinámica en el número de partı́culas (dinámica de creación y destrucción). (c) Desde el punto de vista clásico las partı́culas suelen modelarse como medios discretos (partı́culas puntuales), en tanto que el escenario clásico del fotón corresponde a medios contı́nuos (campos electromagnéticos). La cuantización de la materia se asocia entonces a menudo con la cuantización de un medio clásicamente discreto (teorı́a cuántica “ordinaria”), en tanto que la cuantización de la radiación está necesariamente asociada a la cuantización de un medio clásicamente contı́nuo (teorı́a cuántica de campos). 2.11. Aspectos ondulatorios de una partı́cula material Hemos visto que la distribución de probabilidad está asociada con las propiedades ondulatorias de la materia (o la radiación). Por tanto, la generación de la ecuación dinámica para esta distribución de la probabilidad requerirá de estudiar las propiedades ondulatorias que dicha ecuación debe generar. En general, la mayor parte de la discusión que se desarrollará en esta sección es también válida para ondas clásicas, los desarrollos matemáticos son básicamente idénticos pero la interpretación difiere en ambos casos. Si seguimos los postulados de De Broglie, el punto de partida natural será el estudio de las ondas viajeras libres. Dentro de la ecuación de onda clásica libre
  • 436.
    138 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS (i.e. homogénea) la solución más simple (monocromática) es la solución tipo onda plana ψ (r, t) = Aei(k·r−ωt) (2.52) es inmediato ver que la onda plana es tal que |ψ (r, t)|2 = |A|2 de modo que si efectivamente representa a la onda asociada a una partı́cula libre, nos predice que la distribución de probabilidad de una partı́cula libre es uniforme en el espacio, lo cual es compatible con la homogeneidad e isotropı́a del espacio. Podrı́a argumentarse que las ondas planas no son de cuadrado integrable de modo que no representan estrictamente un estado fı́sico. Sin embargo, nuestra experiencia con la óptica en la cual las ondas planas tampoco son estados fı́sicos nos muestra que el estudio de sus propiedades es muy provechoso, por un lado porque se puede considerar como el lı́mite de un estado fı́sico y por otro lado porque los estados fı́sicos se podrán escribir como superposición de tales funciones en virtud de su completez (ver sección 1.31.1). Tomaremos entonces la solución (2.52) como el prototipo de una onda piloto. Nuestro objetivo será realizar una teorı́a no relativista que sea compatible con los postulados de De Broglie. Partiremos entonces de la relación no relativista entre E y p para una partı́cula E = p2 2m (2.53) y utilizando las relaciones de De Broglie (2.49) llegamos a ω = ~k2 2m (2.54) la relación de dispersión (2.54) nos dice que la ecuación de onda NO es la ecuación dinámica que gobierna a la teorı́a cuántica no relativista de una partı́cula, ya que es fácil demostrar que insertando (2.52) en la ecuación de onda clásica se obtiene la relación de dispersión ω2 = k2 v2 (2.55) siendo v la velocidad de la onda. Volveremos sobre este problema más adelante, de momento asumiremos que la onda viajera libre (2.52) es solución de la ecuación de movimiento para el estado cuántico ψ de una partı́cula libre con relación de dispersión dada por (2.54). Puesto que las ondas piloto deben generar los fenómenos ondulatorios, es necesario que la combinación lineal de soluciones sea solución de la ecuación dinámica para generar los fenómenos de interferencia. 2.11.1. Estados cuánticos arbitrarios como superposición de ondas planas De acuerdo con lo anterior, y dado que las ondas planas pueden generar cualquier función de cuadrado integrable (completez) cualquier estado cuántico de una partı́cula (no necesariamente libre) se puede escribir como una superposición de la forma ψ (r, t) = 1 (2π)3/2 Z ψ̄ (k, t) ei[k·r−ωt] d3 k (2.56) donde d3k = dkx dky dkz representa un diferencial de volumen en el espacio de las k′s (usualmente denominado espacio recı́proco). La transformada de Fourier ψ̄ (k) puede ser compleja pero debe ser bien comportada para permitir derivar la solución dentro de la integral. Por supuesto, las transformadas de Fourier especı́ficas dependerán del problema especı́fico. Una función de onda que es superposición de ondas planas como la descrita en (2.56) se denomina un paquete de ondas tridimensional. Por simplicidad, tomaremos el caso unidimensional ψ (x, t) = 1 √ 2π Z ψ̄ (k, t) ei[kx−ωt] dk (2.57) y estudiaremos más adelante el caso tridimensional. En primer lugar estudiaremos el perfil del paquete de onda en un instante dado
  • 437.
    2.11. ASPECTOS ONDULATORIOSDE UNA PARTÍCULA MATERIAL 139 2.11.2. Perfil instantáneo del paquete de onda Por simplicidad elegimos el instante como t = 0. La Ec. (2.57) se simplifica a ψ (x, 0) = 1 √ 2π Z ψ̄ (k, 0) eikx dk (2.58) y su inversa es ψ̄ (k, 0) = 1 √ 2π Z ψ (x, 0) e−ikx dx (2.59) la forma instantánea del paquete estará dada por la dependencia x de ψ (x, 0) definida en (2.58). Trataremos de definir el comportamiento cualitativo de ψ (x, 0) por medio de ejemplos sencillos. Supongamos que ψ (x, t) está dado por una superposición de tres ondas planas eikx (en t = 0), caracterizadas por los números de onda k0, k0 − ∆k 2 , k0 + ∆k 2 con amplitudes g (k0), g (k0) /2 y g (k0) /2 ψ (x) = g (k0) √ 2π eik0x + 1 2 ei(k0− ∆k 2 )x + 1 2 ei(k0+ ∆k 2 )x (2.60) ψ (x) = g (k0) √ 2π eik0x 1 + cos ∆k 2 x (2.61) Figura 2.5: (a) Partes reales de cada una de las tres ondas dadas por (2.60). (b) Superposición de las tres ondas. La lı́nea punteada es la envolvente dada por 1 + cos ∆x 2 x , que le da forma al paquete de ondas. La lı́nea contı́nua describe las oscilaciones. La Fig. 2.5 muestra la forma de cada una de estas tres ondas (sus partes reales) y de la superposición. La Ec. (2.61) muestra que |ψ (x)| es máximo cuando x = 0, lo cual se aprecia en la Fig. 2.5 en virtud de que en x = 0
  • 438.
    140 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS las tres ondas están en fase y por lo tanto interfieren constructivamente. A medida que nos movemos desde x = 0 (hacia la izquierda o la derecha) las ondas están cada vez más en desfase de modo que |ψ (x)| va disminuyendo, hasta que la interferencia se vuelve totalmente destructiva en ciertos puntos xn (posiciones de los nodos), cuando la diferencia de fase entre eik0x y ei(k0±∆k/2)x es igual a (2n + 1) π, siendo n un entero no negativo. Los nodos xn más cercanos a x = 0 están asociados a una diferencia de fase π k0xn − k0xn ± ∆k 2 xn = π ⇒ ∓ ∆k 2 xn = π ∆k 2 xn = ∓π ⇒ xn = ∓ 2π ∆k Dado que el paquete es simétrico y está centrado en x = 0, el ancho del paquete es ∆x = 2 |xn| ∆x = 4π ∆k ⇒ (∆x) (∆k) = 4π (2.62) esto nos muestra que a medida que el ancho ∆k de la función
  • 440.
  • 442.
    decrece, el ancho∆x de la función |ψ (x)| aumenta, siendo ∆x la distancia entre dos ceros de |ψ (x)|. Similarmente, si el ancho del paquete ∆x disminuye (paquete más localizado), el ancho ∆k de
  • 444.
  • 446.
    debe aumentar afin de mantener la relación (2.62). Si asumimos que k0 ≫ ∆k entonces la frecuencia del término eik0x es mucho mayor a la frecuencia del término 1+cos ∆k 2 x . Por lo tanto, la parte oscilante en x para la Ec. (2.61) está dada por la función eik0x y la envolvente (modulación de la amplitud de oscilación) está dada por |ψ (x)| = g (k0) √ 2π
  • 450.
  • 454.
    esta amplitud dela envolvente o función moduladora de la amplitud se ilustra como lı́nea punteada en la Fig. 2.5. En este caso, vemos que la envolvente dada por |ψ (x)| es periódica en x de modo que tenemos un tren infinito de paquetes de onda con una serie de nodos y máximos. Este hecho se debe a que la superposición es de un número finito de ondas planas. Para una superposición contı́nua de un número infinito de ondas como el dado en (2.58), este fenómeno no ocurre y tendremos en general un solo máximo para el perfil |ψ (x, 0)|. En realidad, lo que esperamos de una onda piloto asociada a una partı́cula es un solo paquete relativamente “localizado” alrededor del máximo del paquete (región de mayor probabilidad de localizar a la partı́cula). Retornemos ahora al caso general de una superposición contı́nua de la forma (2.58), aquı́ el fenómeno de interferencia es más complejo pero de nuevo tendremos un máximo en |ψ (x, 0)| cuando las diferentes ondas viajeras interfieran constructivamente. Imaginemos que
  • 456.
  • 458.
    está dada poruna curva cuyo perfil es similar a una campana de Gauss simétrica centrada en k = k0 con un pico bien pronunciado en k0 y un ancho ∆k. En realidad, no hay una sola forma de parametrizar este ancho, pero tomaremos por convención que el ancho lo definimos a la mitad de la altura del pico. Bajo esta suposición, escribamos ψ̄ (k, 0) en notación polar siendo α (k) el argumento y siendo
  • 460.
  • 462.
    la longitud delfasor ψ̄ (k, 0) =
  • 464.
  • 466.
    eiα(k) (2.63) ahora asumamos queα (k) varı́a lentamente en el intervalo [k0 − ∆k/2, k0 + ∆k/2] donde la longitud del fasor
  • 468.
  • 470.
    es apreciable. Cuando∆k es suficientemente pequeño, podemos expandir a α (k) en las vecindades de k = k0 α (k) ≃ α (k0) + (k − k0) dα dk k=k0 (2.64)
  • 471.
    2.11. ASPECTOS ONDULATORIOSDE UNA PARTÍCULA MATERIAL 141 reemplazando esta expansión en (2.58) se obtiene ψ (x, 0) = 1 √ 2π Z ∞ −∞ ψ̄ (k) eikx dk = 1 √ 2π Z ∞ −∞
  • 473.
  • 475.
  • 477.
  • 479.
  • 481.
  • 483.
  • 485.
  • 487.
  • 489.
  • 491.
    e i n (k−k0) [dα dk ]k=k0 +x o dk (2.66) quedandofinalmente ψ (x, 0) ≃ ei[k0x+α(k0)] √ 2π Z k0+ ∆k 2 k0− ∆k 2
  • 493.
  • 495.
    ei(k−k0)(x−x0) dk (2.67) x0 ≡− dα dk k=k0 (2.68) La expresión (2.67) es útil para un análisis cualitativo de las variaciones de |ψ (x, 0)| con x. Partiendo de k = k0 Figura 2.6: Variaciones con respecto a k, de la parte real del integrando en la Ec. (2.67) (a) cuando x es fijo en un valor tal que |x − x0| 1/∆k, en tal caso la función oscila varias veces en el intervalo ∆k. (b) Cuando x es fijo en un valor tal que |x − x0| 1/∆k, en tal caso la función oscila muy poco en tal intervalo y la función ψ (x, 0) toma valores grandes. Por tanto, el centro del paquete de ondas (punto donde |ψ (x, 0)| es máximo) se ubica en x=x0. En todo el análisis se ha supuesto que
  • 497.
  • 499.
    es una funciónsimétrica centrada en k0, con un perfil similar a una campana de Gauss. el siguiente valor kb para el cual se ha ejecutado una oscilación es (kb − k0) (x − x0) = 2π ⇒ (kb − k0) = 2π (x − x0)
  • 500.
    142 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS De modo que el valor de |x − x0| nos dice si |kb − k0| es mayor o menor que ∆k/2 o en otras palabras, si en el intervalo de integración definido en (2.67) el integrando ha logrado o no completar una oscilación. Cuando |x − x0| es grande i.e. cuando |x − x0| ≫ 2π/∆k, se tiene que (kb − k0) = 2π (x − x0) ≪ ∆k de modo que una oscilación en el integrando de (2.67) se realiza en un intervalo mucho menor que el ancho de integración. En consecuencia, la función de k que se integra en (2.67) oscila muchas veces dentro del intervalo ∆k y las contribuciones de las sucesivas oscilaciones se cancelan entre sı́ (Fig. 2.6a); por tanto, la integral sobre k se vuelve muy pequeña. Es decir que cuando x está fijo en un valor lejano a x0 las fases de las diversas ondas que constituyen a ψ (x, 0) varı́an muy rápidamente en el dominio ∆k, y forman entre ellas una interferencia destructiva. Por otra parte, cuando x ≃ x0, o en otras palabras cuando |x − x0| ≪ 1/∆k se tiene que |kb − k0| ≫ 2π∆k ∆k la función que se integra sobre k solo realiza una pequeña fracción de la oscilación a partir de k0 y dado que |k − k0| ∆k para un k que esté en el intervalo de integración, se tiene que |k − k0| |x − x0| ≪ 1 ∆k ∆k = 1 , k ∈ k0 − ∆k 2 , k0 + ∆k 2
  • 502.
  • 504.
  • 506.
  • 508.
    (2.69) de modo quela exponencial apenas modifica un poco el perfil de
  • 510.
  • 512.
    (Fig. 2.6b), yen el proceso de integración la fase se mantiene casi constante, por tanto la interferencia es constructiva y |ψ (x, 0)| es máximo. De otra parte, la Ec. (2.69) se convierte en una igualdad para la posición xM tal que xM = x0, en cuyo caso no hay oscilación y la interferencia es completamente constructiva. Por tanto, la posición xM (0) = x0 corresponde al centro del paquete de onda (máximo del módulo del paquete) que de acuerdo con la Ec. (2.68) viene dada por: xM (0) = x0 = − dα dk k=k0 (2.70) alternativamente, se puede ver que (2.70) nos da la posición del centro del paquete teniendo en cuenta que la Ec. (2.58) adquiere su máximo en valor absoluto cuando las ondas de mayor amplitud (aquellas con k cercano a k0) interfieren constructivamente. Esto ocurre cuando las fases que dependen de k de estas ondas varı́an lentamente alrededor de k0. Para obtener el centro del paquete se impone que la derivada con respecto a k de la fase sea cero para k = k0, esta fase se puede ver en la segunda igualdad de la Ec. (2.65) y se obtiene d dk [kx + α (k)]k=k0 = 0 ⇒ x + dα dk k=k0 = 0 (2.71) vemos entonces que la condición de fase estacionaria (2.71) se reduce a (2.70). Cuando x se aleja de x0, el valor de |ψ (x, 0)| decrece. El propósito ahora es definir un ancho ∆x dependiendo del decrecimiento de |ψ (x, 0)| alrededor de x0. Nótese que este decrecimiento es apreciable si ei(k−k0)(x−x0) oscila una vez o más cuando k recorre el dominio desde k0 − ∆k 2 hasta k0 + ∆k 2 es decir cuando ∆k · |x − x0| 2π donde hemos definido el “umbral” para |x − x0| como el valor para el cual se ejecuta una oscilación. Si definimos ∆x ≡ |x − x0| /2π como el ancho tı́pico del paquete, tenemos ∆k ∆x 1 (2.72)
  • 513.
    2.11. ASPECTOS ONDULATORIOSDE UNA PARTÍCULA MATERIAL 143 lo cual nos da una relación entre los anchos de dos funciones que son transformadas de Fourier una de otra. Observemos de nuevo que no hay una única manera de definir el ancho ∆x, por ejemplo podemos definir este ancho con dos oscilaciones, con tres etc, entre mayor sea el número de oscilaciones mayor es el efecto de cancelación, el ancho será mayor y estaremos tomando una mayor porción del área bajo la curva. De la misma forma, puedo tomar el ancho ∆k cuando la altura
  • 515.
  • 517.
    es 1/2, 1/e,1/3 etc, es decir puedo ensanchar ∆k para tomar una porción más grande del área bajo la curva y tener mejores aproximaciones. En vista de lo anterior, el hecho importante es que este producto tiene una cota inferior, ya que el valor preciso de esta cota depende de la definición de los anchos ∆k y ∆x. Esta es la razón para utilizar el sı́mbolo en la Ec. (2.72) en lugar de ≥. La relación (2.72) nos dice además que no es posible construı́r paquetes cuyo producto de anchos sea mucho menor que uno, pero en cambio sı́ es posible construı́r paquetes cuyo producto de anchos sea mucho mayor que uno. Nótese que este análisis ha sido completamente matemático, k y x pueden ser variables arbitrarias siempre que ψ (x, 0) y ψ̄ (k) sean transformadas de Fourier la una de la otra. No existe ninguna suposición fı́sica en estos argumentos. El presente análisis se utiliza en ondas clásicas asignando a k el número de onda y a x la variable espacial en una dimensión. La Ec. (2.72) demuestra que a medida que un paquete de ondas se hace más monocromático (a medida que se reduce ∆k) el ancho ∆x del paquete de onda espacial se hace mayor. En un paquete estrictamente monocromático ∆k → 0 y por tanto ∆x → ∞, por lo cual las ondas monocromáticas no corresponden a estados fı́sicos. Este mismo principio nos muestra que no existe un tren de ondas electromagnéticas para el cual se pueda definir la posición y la longitud de onda con infinita precisión al mismo tiempo. 2.11.3. El principio de incertidumbre de Heisenberg En nuestro contexto de la mecánica cuántica, el paquete de onda ψ (x, t) dado por (2.57) representa el estado de una partı́cula cuya probabilidad en t = 0 de estar fuera del paquete centrado en x0 y de ancho ∆x es prácticamente cero. El resultado (2.72) posee una interesante interpretación a la luz de la mecánica cuántica. Por ejemplo, hemos visto que cuando nuestro estado se describe por una sola onda plana del tipo dado en la Ec. (2.52) (que no es estrictamente un estado fı́sico), la probabilidad de estar en cualquier punto del eje x es uniforme, y es la misma para todos los valores de t, de modo que no hay propagación de la probabilidad. Por otro lado, el ancho ∆x del paquete de onda se puede considerar infinito (la amplitud no se modula), lo cual se traduce en la máxima incertidumbre posible en la posición de la partı́cula (igual probabilidad en todas partes). Por otra parte, esta onda tiene solo una frecuencia angular ω0 y un solo número de onda k0 (onda monocromática) y de acuerdo con las relaciones de De Broglie su energı́a y su momento están perfectamente definidos E = ~ω0, p = ~k0. Esta onda plana pura se puede considerar como un caso particular del paquete de ondas (2.57) con ψ̄ (k) = δ (k − k0) ; ∆k → 0 donde el hecho de que ∆k → 0 se vé claramente si vemos a la delta de Dirac como el lı́mite de Gaussianas cada vez más altas y agudas. La relación ∆k → 0 junto con la Ec. (2.72) nos lleva a que ∆x → ∞ como ya se dijo. A la luz del principio de descomposición espectral este resultado se puede ver de la siguiente forma: A la partı́cula en t = 0 le hemos asignado una función de onda ψ (x, 0) = Aeikx y hemos visto que posee un momento bien determinado. Es decir que una medida del momento en t = 0 dará definitivamente el valor p = ~k 8. De esto se deduce que Aeikx caracteriza al autoestado correspondiente al autovalor p = ~k. Puesto que existen ondas planas para todos los valores de k, los autovalores de p que se pueden obtener en una medición del momento sobre un estado arbitrario son todos los valores reales. En este caso no hay cuantización de los autoresultados, todos los 8 Este punto es quizás el más adecuado para decir que siempre hemos tratado con medidas ideales. Decir que la medida del momento está completamente definida no es experimentalmente cierto. Lo que en realidad se quiere decir es que en este caso no hay una perturbación fundamental que cambie drásticamente el sistema y por tanto las demás perturbaciones se puede hacer cada vez más pequeñas.
  • 518.
    144 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS valores del momento son permitidos como en la mecánica clásica. Ahora bien, la total determinación de p viene acompañada por una completa incertidumbre en x. Volvamos ahora al caso de un paquete como el dado por (2.58). Como ψ (x, 0) es una superposición lineal de autofunciones del momento eikx con coeficientes ψ̄ (k, 0), el principio de descomposición espectral nos conduce a interpretar a
  • 520.
  • 522.
    2 dk (con unposible factor de normalización) como la probabilidad de encontrar un valor de momento entre p = ~k y p + dp = ~ (k + dk), cuando hacemos una medida en t = 0 del momento de una partı́cula cuyo estado es descrito por ψ (x, 0) en (2.58). Esta interpretación es necesaria cuando el autovalor tiene un espectro contı́nuo ya que en este caso la probabilidad de estar en un punto matemático especı́fico serı́a cero y solo es finita la probabilidad de estar en un intervalo dado. En este caso
  • 524.
  • 526.
    2 serı́a una densidadde probabilidad (probabilidad por unidad de volumen unidimensional), y no una probabilidad como ocurre en el caso discreto. Ahora bien, dado que para una partı́cula es más usual hacer medidas de momento y energı́a que de frecuencia angular y número de onda, es más adecuado escribir las expresiones en términos de E y p usando las relaciones de De Broglie Ecs. (2.49)9. En particular, la Ec. (2.58) se reescribe como ψ (x, 0) = 1 √ 2π~ Z ψ̄ (p, 0) eipx/~ dp dado que las transformadas de Fourier satisfacen la relación de Bessel parseval (invarianza de la norma) hψ| ψi (0) = Z ∞ −∞ |ψ (x, 0)|2 dx = Z ∞ −∞
  • 528.
  • 530.
    2 dp ≡ C tendremosentonces que dP (x, 0) = 1 C |ψ (x, 0)|2 dx ; dP̄ (p, 0) = 1 C
  • 532.
  • 534.
    2 dp dP (x, 0)representa la probabilidad de encontrar a la partı́cula en t = 0 en el intervalo [x, x + dx]. Similarmente, dP̄ (p, 0) es la probabilidad de obtener una medida del momento de la partı́cula en t = 0 que esté dentro del intervalo [p, p + dp]. Ahora escribamos la desigualdad (2.72) en términos de E y p usando la relaciones de De Broglie (2.49) ∆x ∆p ~ (2.73) para dar una interpretación fı́sica a (2.73), supongamos que el estado de una partı́cula está definido por el paquete de onda (2.57). En tal caso, la probabilidad de encontrar la partı́cula en t = 0 dentro del intervalo [x0 − ∆x/2, x0 + ∆x/2] es prácticamente uno. Decimos entonces que ∆x es la incertidumbre en la medida de la posición de la partı́cula. Similarmente, si medimos el momento de la partı́cula en el mismo tiempo (t = 0) tal probabilidad es casi uno dentro del intervalo [p0 − ∆p/2, p0 + ∆p/2]. Es decir que ∆p mide la incertidumbre en la determinación del momento de la partı́cula. A la luz de lo anterior la Ec. (2.73) expresa que es imposible medir al mismo tiempo la posición y el momento de la partı́cula con grado arbitrario de exactitud. Cuando alcanzamos el lı́mite inferior en (2.73) una disminución en ∆x (es decir un aumento en la exactitud de la medición de la posición) conduce a un aumento en ∆p (es decir un aumento en la incertidumbre de la medida del momento, o equivalentemente una disminución en la exactitud de tal medida) y viceversa. Este enunciado se conoce como el principio de incertidumbre de Heisenberg. Notemos que el valor del término de la derecha en (2.73) nos expresa más bien un orden de magnitud que un lı́mite inferior preciso. Es de anotar que si bien hay un análogo clásico del principio de incertidumbre para las ondas, no hay un análogo clásico para las partı́culas. En realidad hemos visto que el principio de incertidumbre está asociado inicialmente a los parámetros de onda, que se conectan a los parámetros de partı́cula por medio de las relaciones de De Broglie, estas a su vez están asociadas a la dualidad onda partı́cula que es una caracterı́stica cuántica. La pequeñez de ~ hace que este principio de incertidumbre no se manifieste en los sistemas macroscópicos. 9 En otras palabras, es más usual medir parámetros de materia que parámetros de onda.
  • 535.
    2.12. EL PRINCIPIODE COMPLEMENTARIEDAD PARA LA DUALIDAD ONDA PARTÍCULA Y SU RELACIÓN CO 2.12. El principio de complementariedad para la dualidad onda partı́cula y su relación con el principio de incertidumbre de Heisenberg Figura 2.7: Variante del experimento de Young de la doble rendija, para el cual la placa opaca P, puede desplazarse verticalmente. La discusión sobre el experimento de la doble rendija nos ha mostrado que si bien la dualidad onda partı́cula es necesaria para explicar los resultados, ambas manifestaciones parecen ser mutuamente excluyentes. La perfecta determinación de las propiedades ondulatorias (patrón de interferencia con doble rendija) nos conduce a una total ignorancia sobre la rendija por la cual pasa cada fotón (propiedad de “trayectoria” asociada a una partı́cula). Por otro lado, la perfecta determinación de la rendija por la cual pasa cada fotón (determinación de sus propiedades de partı́cula) conduce a la completa destrucción del patrón de interferencia (i.e. de sus propiedades ondulatorias). Se dice entonces que los aspectos ondulatorio y material de la partı́cula son complementarios. Vamos ahora a reconsiderar el experimento de la doble rendija para demostrar la profunda relación entre el principio de complementariedad y el principio de incertidumbre de Heisenberg. Para ello analizaremos una variante del experimento de la doble rendija ilustrada en la Fig. 2.7. Asumamos que la placa opaca P sobre la cual se perforan las rendijas está montada sobre cojinetes que permiten su desplazamiento vertical. Asumiremos que el foco de los fotones está muy lejos, de modo que podemos suponer que todos los fotones inciden perpendicularmente sobre la placa P. Un fotón que golpea la placa de observación O en el punto M (de coordenada x respecto al origen O), tuvo que sufrir un cambio de momento que fué absorbido por P a fin de mantener el momento conservado. Nótese que si el fotón de momento p = hν/c pasa por la rendija F1, el momento transferido a P es p1 = − hν c sin θ1 (2.74)
  • 536.
    146 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS y si pasa por la rendija F2, tal momento transferido es p2 = − hν c sin θ2 (2.75) Siendo θ1 el ángulo de deflexión del fotón cuando cruza la rendija F1 e impacta en el punto M. El ángulo θ2 se define similarmente con la rendija F2. Por tanto, el momento transferido a P depende de la trayectoria del fotón, puesto que depende de la rendija por la que pase. Enviando los fotones uno por uno podemos construir el patrón de interferencia gradualmente sobre la pantalla de observación. Aparentemente, este dispositivo nos permite construir tal patrón de interferencia asociado a la doble rendija al tiempo que permite determinar la rendija por la cual pasa cada fotón. A priori pareciera que podemos determinar completamente las caracterı́sticas corpusculares y ondulatorias de los fotones en forma simultánea. Sin embargo, las franjas de interferencia no son visibles con este montaje. El error consiste en asumir que solo los fotones poseen un carácter cuántico. Sin embargo, la placa P aunque es un objeto macroscópico también posee un carácter cuántico. Si queremos discriminar por cual rendija pasó el fotón, la incertidumbre ∆p en la medida del momento vertical de P debe ser suficientemente pequeña para determinar la diferencia entre p1 y p2 ∆p ≪ |p2 − p1| aplicando las relaciones de incertidumbre, la posición de la placa P se puede conocer a lo más dentro de un intervalo de incertidumbre dado por ∆x ~ ∆p ≫ h |p2 − p1| (2.76) si denotamos a la distancia entre las rendijas y d la distancia entre la placa P y la pantalla O, y si asumimos que θ1 y θ2 son pequeños (i.e. a/d ≪ 1 y x/d ≪ 1) obtenemos θ1 ≃ tan θ1 = x − a/2 d ; θ2 ≃ tan θ2 = x + a/2 d |θ2 − θ1| ≃ a d los momentos p1 y p2 dados en las Ecs. (2.74, 2.75) nos dan |p2 − p1| = hν c |sin θ2 − sin θ1| ≃ hν c |θ2 − θ1| ≃ hν c a d = h λ a d siendo λ la longitud de onda asociada al fotón. Sustituyendo esta relación en (2.76) se obtiene ∆x ≫ λd a (2.77) pero (λd) /a es precisamente la separación entre franjas que se espera encontrar en el patrón de difracción sobre la pantalla O. Ahora bien, si la posición vertical de las rendijas solo se puede determinar en un intervalo de incertidumbre mayor a la separación de las franjas, es imposible observar el patrón de interferencia. La discusión anterior nos muestra que la construcción de una teorı́a cuántica de la radiación requiere de la construcción de una teorı́a cuántica de la materia para evitar contradicciones. En el ejemplo anterior, si trabajamos la placa P como un sistema clásico material, invalidamos el principio de complementariedad de los dos aspectos corpuscular y ondulatorio de la luz y por tanto, la teorı́a cuántica de la radiación. Se puede demostrar que dificulta- des análogas surgen cuando se considera que solo la materia posee carácter cuántico. Por tanto, la consistencia del principio de complementariedad requiere que tanto la materia como la radiación tengan caracterı́sticas cuánticas. Otro aspecto que vale la pena discutir, es que en este ejemplo la naturaleza cuántica de P es esencial para un adecuado entendimiento del fenómeno, a pesar de ser un sistema macroscópico. La razón estriba en que si bien el sistema es macroscópico, las incertidumbres combinadas para el momento y la posición que se requieren en dicho
  • 537.
    2.13. EVOLUCIÓN TEMPORALDE PAQUETES DE ONDAS LIBRE 147 sistema para soslayar el principio de complementariedad, están en un umbral no permitido por las relaciones de incertidumbre. Podemos entonces precisar el principio de complementariedad enunciado por Niels Bohr diciendo que la naturaleza ondulatoria y corpuscular de la radiación o de las partı́culas no pueden exhibirse al mismo tiempo en la misma medida. Los conceptos clásicos de onda y partı́cula son mutuamente excluyentes cuando se utilizan para describir fenómenos cuánticos. Puesto que la existencia de las dos caracterı́sticas de onda y partı́cula no puede ser observada simultáneamente, éstas no generan conflicto la una con la otra en un mismo experimento. No obstante, ambas son necesarias para la descripción de los fenómenos cuánticos. Las dos descripciones dan visiones complemetarias de la realidad, no visiones contradictorias. Bohr ilustraba este principio con el ejemplo simple de una moneda que tiene dos caras pero no podemos ver las dos caras simultáneamente, el ver una de las caras excluye la posibilidad de ver la otra. 2.13. Evolución temporal de paquetes de ondas libre Asumamos un paquete de ondas como el descrito por (2.56), la forma especı́fica del paquete en t = 0 está dada por las condiciones iniciales. La evolución del paquete estará entonces dictaminada por las relaciones de dispersión que dependen de la interacción de la partı́cula con el resto del universo. Puesto que no hemos generado una ecuación dinámica para la partı́cula no podemos en general resolver la evolución temporal de una partı́cula interactuante, sin embargo la relación de dispersión (2.54) nos permitirá resolver el problema de la evolución temporal para una partı́cula libre. En el caso más simple, un paquete unidimensional está constituı́do por una sola onda plana ψ (x, t) = Aei(kx−ωt) = Aeik(x− ω k t) = f x − ω k t su parte real es ψ (x, t) = A cos h k x − ω k t i su velocidad de propagación (velocidad de propagación del frente de onda i.e. de un punto con fase constante) está dada por la velocidad con que se propaga el máximo correspondiente a xM = 0 en t = 0 (que corresponde a fase total cero). Para cualquier tiempo la posición de este máximo corresponde a fase total cero xM (t) − ω k t = 0 ⇒ xM (t) = ω k t la velocidad de este máximo es entonces dxM (t) dt = Vf (k) = ω k (2.78) como esta es la velocidad de un punto que define una fase total constante para todo tiempo (fase cero), llamaremos a este término velocidad de fase de la onda plana, la cual solo depende de x y t por medio de x − ω k t . Es bien sabido que para ondas electromagnéticas en el vacio Vf es independiente de k e igual a c. Todas las ondas que constituyen el paquete viajan a la misma velocidad de modo que el paquete mantiene su forma. Sin embargo, en un medio dispersivo la velocidad de fase está dada por Vf (k) = c n (k) siendo n (k) el ı́ndice de refracción relativo entre el vacı́o y el medio. En este caso cada onda componente viaja a distinta velocidad, lo cual produce un cambio de forma del paquete con el tiempo. A medida que se propaga el paquete se ensancha, fenómeno conocido como dispersión. Fı́sicamente, esto se debe a que el material responde de forma distinta para cada longitud de onda componente.
  • 538.
    148 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS Volviendo a nuestro caso de onda monocromática cuántica, si usamos las Ecs. (2.78, 2.54) vemos que la velocidad de fase está dada por Vf (k) = ω k = ~k2 2mk = ~k 2m (2.79) de modo que Vf es función explı́cita de k. Nótese que si usáramos la relación de dispersión dada por la ecuación de onda, Ec. (2.55) entonces Vf no presentarı́a dispersión (Vf no depende de k) como ocurre efectivamente con las ondas clásicas libres (como las ondas electromagnéticas libres). Ahora analizaremos el caso de ondas que son superposición de ondas planas. Veremos a continuación que cuando las diferentes ondas tienen diferentes velocidades de fase, la velocidad del máximo xM del paquete de onda no es la velocidad de fase promedio dada por ω0 k0 = ~k0 2m como antes, comencemos con el ejemplo simple de la superposición de tres ondas planas similares a las descritas en (2.60) pero ahora con variación temporal ψ (x, t) = g (k0) √ 2π ei(k0x−ω0t) + 1 2 ei[(k0− ∆k 2 )x−(ω0− ∆ω 2 )t] + 1 2 ei[(k0+ ∆k 2 )x−(ω0+ ∆ω 2 )t] (2.80) = g (k0) √ 2π ei(k0x−ω0t) 1 + cos ∆k 2 x − ∆ω 2 t ψ (x, t) = g (k0) √ 2π e ik0 x− ω0 k0 t 1 + cos ∆k 2 x − ∆ω ∆k t (2.81) puesto que las tres ondas tiene números de onda k0 y k0 ± ∆k, es claro que k0 es el número de onda promedio. Similarmente, ω0 es la frecuencia angular promedio. De la Ec. (2.81) se vé claramente que el máximo de |ψ (x, t)| que estaba en x = 0 cuando t = 0 está ahora en el punto xM (t) = ∆ω ∆k t (2.82) y no en el punto x = ω0t/k0. El origen de este resultado se puede apreciar en la Fig. 2.8, en (a) se representa la Figura 2.8: Posición de tres máximos consecutivos (1) (2) (3) para cada una de las tres ondas planas de la super- posición en la Ec. (2.81). (a) Configuración de los máximos en t = 0, para el cual hay interferencia constructiva en x = 0, que se da con los máximos rotulados por (2). (b) Configuración en un instante posterior en el cual la interferencia totalmente constructiva se da a la derecha de x con los máximos (3). posición en t = 0 de tres máximos consecutivos de cada una de las partes reales de las tres ondas. Puesto que los
  • 539.
    2.13. EVOLUCIÓN TEMPORALDE PAQUETES DE ONDAS LIBRE 149 máximos denotados con (2) coinciden en x = 0, hay una interferencia constructiva en este punto lo cual nos da el máximo de |ψ (x, t = 0)|. Puesto que la velocidad de fase aumenta con k según (2.79), tenemos que el máximo (3) de la onda k0 + ∆k 2 termina alcanzando al máximo de la onda k0 también denotado por tres. Similarmente el máximo (3) de k0 alcanzará al máximo de k0 − ∆k 2 denotado por (3). Un análisis detallado muestra que todos coinciden en cierto tiempo t, determinando entonces el máximo xM (t) de |ψ (x, t)| por interferencia constructiva. El cálculo detallado del punto donde esto ocurre reproduce la Ec. (2.82). Analicemos finalmente el caso en el cual el paquete de ondas es arbitrario y consta de una superposición contı́nua de ondas planas como en la Ec. (2.57). El corrimiento del centro del paquete se encuentra aplicando de nuevo el método de fase estacionaria. Comparando la forma de ψ (x, t) con la de ψ (x, 0) Ecs. (2.57, 2.58) vemos que si la transformada de Fourier en (2.57) no depende explı́citamente del tiempo, entonces ψ (x, t) se obtiene a partir de ψ (x, 0) con la asignación ψ̄ (k) → ψ̄ (k) e−iω(k)t. Por tanto, el razonamiento dado en la pág. 142 se mantiene válido reemplazando el argumento α (k) de ψ̄ (k) en la Ec. (2.63), por el argumento α (k) → α (k) − ω (k) t (2.83) la condición de fase estacionaria (2.71) se escribe ahora de la forma d dk [kxM + α (k) − ω (k) t]k=k0 = 0 ⇒ xM + dα dk − dω (k) dk t k=k0 = 0 Y la dinámica del centro del paquete estará dada por xM (t) = dω dk k=k0 t − dα dk k=k0 que nos reproduce una vez más el resultado (2.82) solo que en este caso ∆ω y ∆k tienden a cero ya que hay un barrido contı́nuo en estas variables. La velocidad del máximo del paquete de ondas es Vg (k0) = dxM (t) dt = dω dk k=k0 conocida como velocidad de grupo del paquete. Con la relación de dispersión (2.54) para partı́cula libre y teniendo en cuenta (2.79) tenemos que Vg (k0) = ~k0 m = 2Vf (k0) (2.84) Notamos entonces dos diferencias importantes entre la onda asociada a la partı́cula libre cuántica y la solución libre ondulatoria proveniente de la ecuación de onda. (a) Las ondas electromagnéticas clásicas libres no presentan dispersión en tanto que la solución cuántica (ondulatoria) de partı́cula libre si presenta dispersión y (b) para las ondas electromagnéticas libres la velocidad de grupo es menor que la de fase, mientras que para la solución ondulatoria de partı́cla libre cuántica, la velocidad de grupo es mayor que la velocidad de fase10. Nótese que el resultado (2.84) reproduce adecuadamente el lı́mite clásico ya que si ∆x y ∆p son ambos despreciables, podemos hablar de la posición xM (t) y del momento p0 de la partı́cula. Pero entonces su velocidad debe ser p0/m según la mecánica clásica, esto es compatible con la Ec. (2.84) obtenida en el marco cuántico con p0 = ~k0, siempre que ∆x y ∆p sean ambos despreciables Vg se puede asociar a la velocidad de la partı́cula, que es la velocidad del máximo del paquete. Es posible también estudiar la forma en que evoluciona la forma del paquete. Si por ejemplo ∆p es una constante de movimiento entonces ∆x se incrementa con el tiempo, (dipersión del paquete). 10 Nótese que el hecho de que la velocidad de grupo sea mayor a la de fase en la Ec. (2.84), no entra en contradicción con la relatividad, puesto que nuestros resultados solo son válidos en un régimen no relativista, ya que la relación de dispersión (2.54) proviene de la ecuación (2.53), la cual es no relativista.
  • 540.
    150 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS 2.14. Caracterización de paquetes de onda gaussianos Estudiaremos perfiles de paquetes de onda ψ (x, 0) para los cuales la transformada de Fourier ψ̄ (k, 0) es gaussiana. Este ejemplo especı́fico es de amplio uso en fı́sica y tiene la ventaja de permitir ilustrar los conceptos asociados a paquetes de onda con cálculos exactos. Estudiaremos además la evolución temporal de estos paquetes. 2.14.1. Integrales básicas para paquetes gaussianos El cálculo del paquete de onda (y muchos otros cálculos relativos a paquetes de onda gaussianos) requiere evaluar una integral del tipo I (α, β) = Z ∞ −∞ e−α2(ξ+β)2 dξ donde α y β son números complejos. Es necesario que Re α2 0 para que la integral converja. El teorema del residuo nos permite encontrar que I (α, β) = I (α, 0) de modo que la integral no depende de β. Si se satisface la condición |Arg (α)| π/4 (lo cual siempre es posible si Re α2 0), esta integral se puede escribir como I (α, 0) = 1 α I (1, 0) y solo resta calcular I (1, 0), lo cual se puede hacer como una integral doble en el plano XY usando coordenadas polares I (1, 0) = Z ∞ −∞ e−ξ2 dξ = √ π de lo cual se obtiene I (α, β) = Z ∞ −∞ e−α2(ξ+β)2 dξ = √ π α (2.85) 2.14.2. Perfiles de paquetes de onda gaussianos Consideremos el modelo unidimensional de una partı́cula libre cuya función de onda en t = 0 tiene el perfil ψ (x, 0) = √ a (2π)3/4 Z ∞ −∞ e− a2 4 (k−k0)2 eikx dk (2.86) el cual resulta de superponer ondas planas eikx con coeficientes de Fourier de la forma 1 √ 2π ψ̄ (k, 0) = √ a (2π)3/4 e− a2 4 (k−k0)2 (2.87) para calcular ψ (x, 0) es conveniente reescribir la exponencial en (2.86) de modo que los términos en k queden como un cuadrado perfecto a fin de compararlos con (2.85) − a2 4 (k − k0)2 + ikx = − a2 4 k − k0 − 2ix a2 2 + ik0x − x2 a2 con lo cual la Ec. (2.86) queda ψ (x, 0) = √ a (2π)3/4 eik0x e− x2 a2 Z ∞ −∞ e − a2 4 h k−k0− 2ix a2 i2 dk
  • 541.
    2.15. EVOLUCIÓN TEMPORALDE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 151 comparando con (2.85) vemos que α = a/2 de modo que ψ (x, 0) = √ a (2π)3/4 eik0x e− x2 a2 2 √ π a ψ (x, 0) = 2 πa2 1/4 eik0x e− x2 a2 (2.88) vemos entonces que la transformada de Fourier de un paquete gaussiano es también gaussiana. El módulo al cuadrado del paquete y de su transformada en t = 0 (que estarán relacionados con las densidades de probabilidad asociadas a la posición y momento respectivamente, para una partı́cula en t = 0) se obtienen de (2.87, 2.88), y son |ψ (x, 0)|2 = r 2 πa2 e− 2x2 a2 = r 2 πa2 e − x a/ √ 2 2 ;
  • 543.
  • 545.
    2 = a e− a2 2 (k−k0)2 √ 2π = aexp ( − k−k0 ( √ 2/a) 2 ) √ 2π (2.89) y la curva asociada a este módulo es una tı́pica campana de Gauss. El centro del paquete de onda corresponde al máximo de |ψ (x, 0)|2 y se sitúa en x = 0. Esto resultado también se puede obtener por aplicación de la Ec. (2.70). 2.14.3. Relaciones de incertidumbre para paquetes gaussianos Al igual que para todo paquete que no posee nodos, el ancho de una función gaussiana f (x) = e−x2/b2 no puede ser definido en forma unı́voca. Sin embargo, es costumbre definir tal ancho de modo que cuando x varı́a entre ±∆x la función f (x) se haya reducido en un factor de 1/ √ e, esto conduce a un ancho f (x) = exp − x b 2 → ∆x = b √ 2 (2.90) esta definición tiene la ventaja de coincidir con la definición de la raı́z de la desviación media cuadrática, como veremos más adelante. Con esta convención podemos definir el ancho asociado al cuadrado del paquete de onda |ψ (x, 0)|2 y de su transformada de Fourier
  • 547.
  • 549.
    2 en la Ec.(2.89)11 ∆x = a 2 ; ∆k = 1 a ⇒ ∆p = ~ a (2.91) con lo cual se obtiene (∆x) · (∆p) = ~ 2 (2.92) relación que es compatible con el principio de incertidumbre. Nótese además que el principio de incertidumbre se escribe en general en la forma (∆x) · (∆p) ~/2. Esto implica que el principio de incertidumbre permite en general, que el producto del ancho de la función con el ancho de su transformada de Fourier adquiera un valor mayor al lı́mite inferior. Si aceptamos a ~/2 como el lı́mite inferior, vemos que los paquetes de onda gaussianos predicen una igualdad, es decir que los productos de las incertidumbres siempre tienen el menor valor posible. En tal sentido decimos que los paquetes de onda gaussianos son paquetes de “mı́nima incertidumbre”. 2.15. Evolución temporal de paquetes de onda gaussianos (opcional) La Ec. (2.56) junto con la relación de dispersión (2.54) nos dan la forma del perfil de un paquete de onda asociado a partı́cula libre, donde el paquete inicial tiene forma arbitraria. Aplicando estas ecuaciones al caso 11 Es más adecuado definir los anchos asociados a las funciones al cuadrado ya que éstas son las que tienen interpretación fı́sica directa.
  • 550.
    152 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS especı́fico en que el paquete inicial posee el perfil gaussiano dado por la Ec. (2.87), se tiene que ψ (x, t) = √ a (2π)3/4 Z ∞ −∞ e− a2 4 (k−k0)2 ei[kx−ω(k)t] dk ; ω (k) = ~k2 2m (2.93) veremos que el paquete permanece gaussiano para todo tiempo t. Se puede agrupar la parte dependiente de k de los exponentes para formar un cuadrado perfecto, con el fin de comparar (2.93) con (2.85) y obtener ψ (x, t) = 2a2 π 1/4 eiϕ a4 + 4~2t2 m2 1/4 eik0x exp   − h x − ~k0 m t i2 a2 + 2i~t m    ϕ ≡ −θ − ~k2 0 2m t ; tan 2θ = 2~ ma2 t el módulo al cuadrado del paquete (densidad de probabilidad) en el tiempo t está dado por |ψ (x, t)|2 = r 2 πa2 1 q 1 + 4~2t2 m2a4 exp      − 2a2 x − ~k0 m t 2 a4 + 4~2t2 m2      (2.94) debemos ahora calcular Z ∞ −∞ |ψ (x, t)|2 dx (2.95) una forma serı́a empleando (2.85) para integrar (2.94). No obstante, es más simple observar de la expresión (2.93) que la transformada de Fourier de ψ (x, t) viene dada por ψ̄ (k, t) = e−iω(k)t ψ̄ (k, 0) (2.96) se vé entonces que
  • 552.
  • 554.
  • 556.
  • 558.
    . Por otrolado, es bien conocido del análisis de Fourier, que
  • 560.
  • 562.
    = |ψ (x, t)|(ecuación de Parseval-Plancherel) para todo tiempo, con lo cual se obtiene |ψ (x, t)| =
  • 564.
  • 566.
  • 568.
  • 570.
    = |ψ (x,0)| por tanto, la norma del paquete es independiente del tiempo y por tanto también la integral (2.95). Este resultado es importante para la conservación de la probabilidad y de hecho para la consistencia de la interpretación de |ψ (x, t)|2 como una densidad de probabilidad. Veremos más adelante que esto resulta del hecho de que el Hamiltoniano de la partı́cula libre es hermı́tico. Ahora bien, la Ec. (2.94) nos dice que la densidad de probabilidad es gaussiana centrada en xM = V0t ; V0 ≡ ~k0 m donde V0 es la velocidad del paquete. Esta expresión es consistente con la velocidad de grupo dada por la Ec. (2.84). 2.15.1. Dispersión del paquete de onda gaussiano (opcional) Tomando la expresión (2.90) para el ancho ∆x (t) del paquete de onda, y teniendo en cuenta el perfil del paquete Ec. (2.94), tenemos que ∆x (t) = a 2 r 1 + 4~2t2 m2a4 (2.97)
  • 571.
    2.15. EVOLUCIÓN TEMPORALDE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 153 Figura 2.9: Dispersión de un paquete de onda Gaussiano libre. El ancho del paquete se reduce a medida que se propaga desde t = −∞ hasta t=0. Posteriormente, el paquete comienza a ensancharce indefinidamente a medida que se propaga. esta ecuación nos muestra que la evolución del paquete no consiste simplemente en una propagación con velocidad V0. El paquete también sufre deformación. Cuando t se incrementa desde −∞ hasta cero, el ancho del paquete decrece y alcanza su valor mı́nimo en t = 0, a partir de entonces el paquete se ensancha indefinidamente (dispersión del paquete de onda). Esta situación se ilustra en la Fig. 2.9. Adicionalmente, la Ec. (2.94) para el perfil del paquete nos muestra que la altura también varı́a, pero de forma opuesta al ancho, de tal manera que la norma de ψ (x, t) permanece constante. Es natural ahora preguntarse por el comportamiento de la forma del “paquete de ondas en el espacio de los momentos (o espacio recı́proco)” con el tiempo. Las propiedades de la transformada de Fourier ψ̄ (k, t) son totalmente distintas, vemos por ejemplo que de acuerdo a la Ec. (2.96) se tiene que
  • 573.
  • 575.
  • 577.
  • 579.
    de modo queel momento promedio del paquete ~k0 y la dispersión del momento ∆p = ~∆k son constantes en el tiempo. Veremos más adelante que esto es una consecuencia de que el momento lineal es una constante de movimiento para la partı́cula libre. En virtud de la ausencia de interacción, la distribución de momentos de una partı́cula libre no cambia. Adicionalmente, dado que ∆p es constante y que ∆x crece con el valor absoluto del tiempo, es claro que estos ya no son paquetes de mı́nima incertidumbre excepto para t = 0, esto se debe a que el paquete en el espacio recı́proco (i.e. la transformada de Fourier del paquete de ondas en el espacio) ya no es puramente gaussiano en t 6= 0, como se puede ver en la Ec. (2.96). Cuánticamente, la existencia de una dispersión del momento ∆p = ~∆k significa que la velocidad de la partı́cula solo se conoce en un intervalo ∆v = ∆p/m y usando la última de las Ecs. (2.91), vemos que ∆v = ~/ma. Este hecho posee un interesante análogo clásico: imaginemos un conjunto de partı́culas clásicas que en t = 0 están localizadas en x = 0 y que tienen una dispersión ∆v = ~/ma de sus velocidades. Es claro que en el tiempo t la dispersión de sus posiciones será ∆xcl = |t| ∆v = ~ |t| ma (2.98) donde estamos asumiendo que se calcula su dispersión también para tiempos negativos anteriores a t = 0. La dispersión decrece linealmente para la evolución temporal desde un t 0 y crece linealmente con t a partir de t = 0. La Fig. 2.10, muestra una comparación entre el comportamiento temporal de los anchos clásico ∆xcl y cuántico ∆x dados por las Ecs. (2.97, 2.98). Vemos que cuando |t| → ∞ las dos gráficas coinciden, dado que las rectas correspondientes al ancho clásico son las ası́ntotas de la hipérbola cuántica. Por tanto, para |t| muy grande podemos decir que hay un comportamiento cuasi-clásico del ancho cuántico ∆x. Sin embargo, cuando |t| → 0, el comportamiento cuántico difiere cada vez más del clásico. Esto se debe a que la partı́cula cuántica debe siempre satisfacer el principio de incertidumbre de Heisenberg ∆x ∆p ≥ ~/2 y dado que ∆p es fijo, éste impone un lı́mite inferior para ∆x que el sistema clásico no tiene que obedecer (efectivamente nuestro sistema clásico no poseı́a
  • 580.
    154 CAPÍTULO 2.CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS Figura 2.10: Comparación entre el comportamiento con el tiempo de un ∆x cuántico (hipérbola) y su análogo clásico ∆xcl (rectas). dispersión en la posición para t = 0 ya que todas las partı́culas estaban en x = 0). No obstante, este análogo clásico debe tomarse con cuidado. Por ejemplo, en nuestro sistema clásico la dispersión se generó con un conjunto de partı́culas, en tanto que la dispersión cuántica esta asociada a un conjunto de ondas asociadas a UNA SOLA partı́cula. Vale la pena anotar que aunque hemos analizado la dispersión de un paquete de ondas libres cuya condición inicial consta de componentes gaussianas, la dispersión se presenta para un paquete libre bajo cualquier forma inicial del paquete, y la variación del ancho del paquete con el tiempo tiene la forma mostrada en la Fig. 2.10. Combinando las Ecs. (2.91, 2.97) vemos que ∆x · ∆p = ~ 2 r 1 + 4~2t2 m2a4 ⇒ ∆x · ∆k = 1 2 r 1 + 4~2t2 m2a4 (2.99) para t = 0 el lı́mite inferior está en el mismo orden de magnitud que el dado en la Ec. (2.72)12 Pág. 142. Sin embargo, para tiempos grandes en valor absoluto, el lı́mite inferior de (2.99) se aleja mucho de aquél que se estimó en (2.72). Para entender esta discrepancia, recordemos que de acuerdo con la Ec. (2.64) Pág. 140, nuestro tratamiento general asumió que la fase α (k) de la transformada de Fourier se podı́a aproximar a una función lineal dentro del rango ∆k. Despreciar los términos no lineales en la expansión (2.64) equivale a decir que (∆k)2 d2α (k) dk2 k=k0 ≪ 2π (2.100) de no ser ası́ la contribución de segundo orden a α (k) no será mucho menor a 2π dentro del dominio k0 ± ∆k. En nuestro contexto, puesto que ∆k ≃ 1/a y de la Ec. (2.93) se tiene que α (k) = − ~k2/2m t, la condición (2.100) se escribe como ~t a2m ≪ 2π (2.101) esta condición se cumple en t = 0 y tiempos t ≪ 2πa2m/~. En contraste, falla para tiempos suficientemente grandes para los cuales el lı́mite inferior en (2.99) difiere sustancialmente de aquél en la Ec. (2.72). 12 Recordemos que para encontrar la Ec. (2.72), se asumió que la transformada de Fourier tenı́a una forma similar (en perfil genérico) a una campana de Gauss. Esto naturalmente coincide con nuestro actual tratamiento. Observemos además que la Ec. (2.72) expresa una desigualdad que muestra la vaguedad del lı́mite inferior.
  • 581.
    Capı́tulo 3 Ecuación deSchrödinger y sus propiedades Hemos estudiado la dualidad onda partı́cula partiendo de los postulados de De Broglie y hemos analizado el comportamiento de la onda asociada a una partı́cula libre. Sin embargo, si consideramos un sistema de una o más partı́culas interactuantes será necesario generar una ecuación de movimiento que gobierne la dinámica de la onda asociada. Si bien esta ecuación de movimiento se postulará, existen ciertos argumentos de plausibilidad para su construcción. 3.1. Plausibilidad de la ecuación de Schrödinger Si aceptamos la validez de los postulados de De Broglie, debemos encontrar una ecuación de movimiento que nos describa la propagación de las ondas piloto y su relación con la dinámica de la partı́cula, para el caso en que la partı́cula interactúe con su entorno. Por simplicidad asumiremos un caso unidimensional en esta sección. El punto de partida será entonces las ecuaciones de De Broglie aplicadas a una partı́cula material λ = h/p ; ν = E/h (3.1) ahora bien, a pesar de que las relaciones de De Broglie son consistentes con la teorı́a de la relatividad (de hecho, fueron inspiradas por las relaciones análogas en los fotones), vamos a plantear una formulación no relativista, esto con el fin de evitar el problema del manejo de la probabilidad que surge de la posibilidad de creación y aniquilación de partı́culas materiales. Tomaremos entonces la relación no relativista (corpuscular) entre energı́a y momento E = p2 2m + V (3.2) siendo m = m0 la masa en reposo de la partı́cula. La Ec. (3.1) nos muestra que un cambio en la definición de energı́a (por ejemplo si tomáramos la relación relativista) nos cambiarı́a el valor de ν. Los experimentos descritos hasta ahora no han explorado la validez de la relación (3.2), de modo que las predicciones que la ecuación dinámica haga sobre una partı́cula interactuante deben ser corroboradas por los experimentos. Es claro que para una partı́cula libre, los resultados deben poder obtenerse con cualquier potencial constante (no necesariamente cero) aplicado a la Ec. (3.2). Es fácil verificar que un potencial constante predice que la velocidad de grupo de la onda piloto corresponde a p/m y por tanto a la velocidad de la partı́cula, combinando (3.1) con (3.2) se tiene que ν = E h = p2 2mh + V h ; K ≡ 1 λ = p h teniendo en cuenta que V es constante, tenemos dν = 2p dp 2mh , dK = dp h 155
  • 582.
    156 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES Ahora bien, teniendo en cuenta que k ≡ 2πK ; ω ≡ 2πν la velocidad de grupo queda Vg = dω dk = dν dK = p dp mh h dp = p m = vpartı́cula y podemos reescribir las relaciones de De Broglie en la forma p = ~k ; E = ~ω (3.3) si insertamos estas relaciones en (3.2) obtenenemos la siguiente relación de Dispersión ~2k2 2m + V (x, t) = ~ω (3.4) tomaremos como prototipo la ecuación para la partı́cula libre con potencial constante. Las consideraciones ante- riores nos dicen que la ecuación de movimiento que genere la función de onda ψ (x, t) (i.e. la dinámica de las ondas piloto), debe cumplir las siguientes propiedades 1. Debe ser consistente con las Ecs. (3.1, 3.2). Es decir debe cumplir los postulados de De Broglie y la relación no relativista entre E y p. 2. Debe ser lineal y homogénea en ψ (x, t) con el fin de que sea válido el principio de superposición que a su vez nos genera los fenómenos ondulatorios de interferencia. Esto implica que si ψ1 (x, t) y ψ2 (x, t) son soluciones de la ecuación una combinación lineal de ellas también es solución. 3. En general, consideraremos potenciales que solo dependen de la posición y el tiempo V = V (x, t). Cuando el potencial es constante la partı́cula es libre y por tanto se deben conservar E y p, lo cual a su vez implica que se conservan λ = 2π/k y ν de acuerdo con las relaciones (3.1). 4. Las soluciones para partı́cula libre son funcionalmente idénticas a las soluciones de la ecuación de onda homogénea, pero deben cumplir con una relación de dispersión que sea consistente con la Ec. (3.4) con V constante, en vez de la relación de dispersión para ondas libres dada por (2.55), lo cual nos dice que la ecuación de onda no es la ecuación dinámica para la función de onda ψ (r, t). Entonces la ecuación de movimiento para partı́cula libre debe tener soluciones en forma de ondas viajeras con número de onda y frecuencia constantes. 5. Lo anterior nos lleva a postular que funciones de onda de la forma Aei(kx−ωt) son soluciones para partı́cula libre (i.e. con potencial constante), ya que estas funciones son soluciones de la ecuación de onda homogénea que corresponden a ondas viajeras con número de onda y frecuencia constantes, y que gracias a las relaciones de De Broglie, también corresponden a momento y energı́a conservados. La linealidad y homogeneidad prohibe términos del tipo [ψ (x, t)]2 (no lineales) o términos independientes de ψ (x, t) (términos inhomogéneos o fuentes). Puesto que la mayorı́a de ecuaciones dinámicas de la Fı́sica son a lo más de segundo orden, postularemos que los términos lineales son a lo más de segundo orden en el espacio y el tiempo, y posiblemente un término lineal en ψ (x, t). Parametrizaremos a la ecuación en la forma siguiente a1 ∂ψ (x, t) ∂x + a2 ∂2ψ (x, t) ∂x2 − b1 ∂ψ (x, t) ∂t − b2 ∂2ψ (x, t) ∂t2 + c ψ (x, t) = 0 asumamos que la solución de partı́cula libre es ψ (x, t) = Aei(kx−ωt), además se debe cumplir la relación de dispersión (3.4) con V constante. Esta relación de dispersión contiene un término proporcional a k2 que se obtendrı́a de una segunda derivada espacial de la onda plana, y un término lineal en ω que se puede extraer de una primera
  • 583.
    3.1. PLAUSIBILIDAD DELA ECUACIÓN DE SCHRÖDINGER 157 derivada temporal de la onda plana. La ausencia de un término lineal en k y de un término cuadrático en ω sugiere la ausencia de primeras derivadas espaciales y de segundas derivadas temporales. Finalmente, la presencia del potencial en (3.4) sugiere la presencia de un término lineal en ψ de la forma V ψ. El ansatz para la solución se reduce a a2 ∂2ψ (x, t) ∂x2 + V ψ (x, t) = b1 ∂ψ (x, t) ∂t (3.5) ahora debemos ajustar los parámetros a2 y b1 de manera que exista una solución tipo onda plana que reproduzca la relación de dispersión (3.4). Recordemos que en mecánica clásica, el carácter complejo de las soluciones de la ecuación de onda se introduce solo por conveniencia y la solución Fı́sica es la parte real de la solución compleja. Por este motivo si bien podemos insertar una solución tipo onda plana en (3.5), es razonable intentar primero usar la solución real para la ecuación de onda clásica como prototipo de solución, insertaremos entonces una función de onda de la forma ψ (x, t) = cos (kx − ωt) (3.6) teniendo en cuenta que k, ω y V son constantes, se tiene que ∂2ψ (x, t) ∂x2 = −k2 cos (kx − ωt) ; ∂ψ ∂t = ω sin (kx − ωt) y al insertar estos resultados en (3.5) obtenemos −a2k2 cos (kx − ωt) + V cos (kx − ωt) = b1ω sin (kx − ωt) V − a2k2 cos (kx − ωt) = b1ω sin (kx − ωt) pero no es posible ajustar los parámetros para que esta relación sea válida para todo x, t, de modo que la solución clásica dada por (3.6) no es compatible con la relación de dispersión de la teorı́a. Aún podemos tratar de encontrar una solución real si agregamos una fase adicional en la forma cos (kx − ωt + δ) que es equivalente a escribir una solución de la forma ψ (x, t) = cos (kx − ωt) + γ sin (kx − ωt) (3.7) lo cual también se puede postular observando que en tal caso ambas derivadas tendrán senos y cosenos que permitirán igualar coeficientes adecuadamente ∂2ψ (x, t) ∂x2 = −k2 cos (kx − ωt) − γk2 sin (kx − ωt) ; ∂ψ ∂t = ω sin (kx − ωt) − γω cos (kx − ωt) que al insertarlos en (3.5) nos da −a2k2 [cos (kx − ωt) + γ sin (kx − ωt)] + V [cos (kx − ωt) + γ sin (kx − ωt)] = b1ω [sin (kx − ωt) − γ cos (kx − ωt)] quedando −a2k2 + V + b1ωγ cos (kx − ωt) + −a2k2 γ + V γ − b1ω sin (kx − ωt) = 0 Los coeficientes de seno y coseno deben anularse para que esta relación sea válida para todo x, t. Tenemos entonces dos ecuaciones con tres incógnitas (a2, b1, γ) que junto con la relación de dispersión (3.4), nos da −a2k2 + V + b1ωγ = 0 ; −a2k2 γ + V γ − b1ω = 0 ; ~2k2 2m + V = ~ω (3.8) las dos primeras ecuaciones se pueden reescribir como −a2k2 + V = −b1ωγ ; −a2k2 + V = b1 γ ω ⇒ −b1ωγ = b1 γ ω ⇒ −γ = 1 γ ⇒ γ2 = −1
  • 584.
    158 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES tenemos entonces γ = ± √ −1 = ±i sustituyendo en la primera de las Ecs. (3.8) −a2k2 + V ± iωb1 = 0 ⇒ −a2k2 + V = ∓iωb1 al comparar esta expresión con la tercera de las Ecs. (3.8) −a2 = ~2 2m ; ∓ib1 = ~ tenemos entonces dos soluciones que dependen de la elección del signo de γ, la elección más usual es γ = i ; a2 = − ~2 2m ; b1 = i~ que al reemplazarlo en (3.5) nos da − ~2 2m ∂2ψ ∂x2 + V ψ = i~ ∂ψ ∂t que se ha derivado para un potencial constante V . Ahora postularemos que la relación se mantiene válida para un potencial arbitrario de la forma V (x, t). Se obtiene entonces − ~2 2m ∂2ψ ∂x2 + V (x, t) ψ = i~ ∂ψ ∂t (3.9) expresión conocida como la ecuación de Schrödinger. Por supuesto podemos postular su extensión a tres dimen- siones como − ~2 2m ∇2 ψ (r, t) + V (r, t) ψ (r, t) = i~ ∂ψ (r, t) ∂t (3.10) Nótese que γ = ±i, lo cual indica que la pretendida solución real (3.7) nos proporciona inevitablemente una solución compleja tipo onda plana. Vemos que hay una diferencia con las soluciones de onda clásica que se toman complejas solo por conveniencia. En contraste, para la ecuación de Schrödinger no pudimos encontrar una solución real consistente con las relaciones de dispersión para partı́cula libre, el carácter de la solución es en esencia complejo. Esto se refleja en el factor imaginario que aparece a la derecha de la ecuación (3.9) de Schrödinger. 3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial escalar independiente del tiempo: estados estacionarios Supongamos que una partı́cula de masa m está sometida a un potencial V (r). La ecuación de Schrödinger (3.10) se escribe entonces − ~2 2m ∇2 ψ (r, t) + V (r) ψ (r, t) = i~ ∂ψ (r, t) ∂t (3.11) plantearemos una separación de variables para la solución ψ (r, t) = χ (t) ϕ (r) (3.12) al introducirlo en la Ec. (3.11) se obtiene − ~2 2m χ (t) ∇2 ϕ (r) + V (r) χ (t) ϕ (r) = i~ϕ (r) ∂χ (t) ∂t
  • 585.
    3.2. ECUACIÓN DESCHRÖDINGER CON POTENCIAL ESCALAR INDEPENDIENTE DEL TIEMPO 159 dividiendo a ambos lados por χ (t) ϕ (r) se escribe − ~2 2m ∇2ϕ (r) ϕ (r) + V (r) = i~ 1 χ (t) ∂χ (t) ∂t el miembro izquierdo solo depende de la posición en tanto que el derecho depende solo del tiempo. Por tanto ambos miembros deben ser iguales a una constante que por comodidad la tomaremos como ~ω, de momento ω es solo una constante a ajustar, aunque es claro que debe tener dimensiones de frecuencia angular. Tenemos entonces que i~ 1 χ (t) ∂χ (t) ∂t = ~ω ⇒ ∂χ (t) ∂t = −iωχ (t) χ (t) = Ae−iωt (3.13) y la ecuación para la parte espacial es − ~2 2m ∇2ϕ (r) ϕ (r) + V (r) = ~ω ⇒ − ~2 2m ∇2 ϕ (r) + V (r) ϕ (r) = ~ωϕ (r) (3.14) combinando las Ecs. (3.12, 3.13), la solución para la ecuación de Schrödinger (3.11) es ψ (r, t) = ϕ (r) e−iωt (3.15) donde hemos absorbido el factor A en la solución ϕ (r) de la ecuación (3.14). Nótese que la solución (3.15) nos conduce a una densidad de probabilidad independiente del tiempo, aunque inhomogénea |ψ (r, t)|2 = |ϕ (r)|2 razón por la cual se conoce como solución estacionaria de la ecuación de Schrödinger. Ahora bien, la Ec. (3.15) nos muestra que la constante de integración ω corresponde efectivamente a la frecuencia angular asociada a la función de onda estacionaria. Nótese que en la solución estacionaria, solo aparece un valor de frecuencia angular ω que a su vez nos conduce a un valor bien definido de la energı́a de acuerdo con la relación de Planck Einstein E = ~ω. En mecánica clásica un potencial independiente del tiempo nos lleva a la conservación de la energı́a total. En mecánica cuántica, lo que podemos decir es que para potenciales independientes del tiempo existen estados de energı́a bien determinada. La Ec. (3.14) se puede escribir entonces como − ~2 2m ∇2 + V (r) ϕ (r) = Eϕ (r) (3.16) que se puede reescribir como Hϕ (r) = Eϕ (r) ; H ≡ − ~2 2m ∇2 + V (r) (3.17) siendo H un operador diferencial que es claramente lineal H [λ1ϕ1 (r) + λ2ϕ2 (r)] = λ1Hϕ1 (r) + λ2Hϕ2 (r) y vemos que (3.17) es una ecuación de valores propios para el operador H en la cual ϕ (r) son las funciones propias (vectores propios) y las energı́as E son los valores propios. Las energı́as permitidas para la partı́cula son entonces los valores propios del operador H. Nótese que no cualquier solución ϕ (r) de la ecuación de Schrödinger es una solución fı́sica, debemos imponer que sea de cuadrado integrable, esta imposición restringirá los valores permitidos de energı́a y nos llevará a una cuantización de esta cantidad.
  • 586.
    160 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES A la Ec. (3.17) se le llama usualmente ecuación de Schrödinger independiente del tiempo, en tanto que a (3.11) se le denomina ecuación de Schrödinger dependiente del tiempo. La Ec. (3.11) nos da la evolución de la función de onda para un estado arbitrario de la partı́cula, en tanto que la Ec. (3.17) solo nos da los estados estacionarios de ésta. Dado que tenemos un conjunto de valores permitidos de la energı́a (autoresultados o autovalores), vamos a rotular las energı́as y las autofunciones de la forma Hϕn,m (r) = Enϕn,m (r) donde tanto n como m pueden simbolizar un ı́ndice contı́nuo o discreto o incluso varios ı́ndices. El ı́ndice m me indica la posibilidad de degeneración, es decir de varias autofunciones linealmente independientes que pertenecen al mismo valor propio En. Los estados estacionarios de la partı́cula son de la forma ψn,m (r, t) = ϕn,m (r) e−iEnt/~ ψn,m (r, t) es una solución de la ecuación de Schrödinger Ec. (3.11), y en virtud de la linealidad de esta ecuación, una superposición de las soluciones estacionarias es también solución ψ (r, t) = X n X m cnmϕn,m (r) e−iEnt/~ (3.18) en realidad es usual que se requiera la superposición puesto que soluciones arbitrarias no satisfacen en general las condiciones iniciales y de frontera que pide un problema especı́fico. La superposición garantiza que podemos obtener cualquier estado siempre que las funciones ϕnm (r) sean completas como funciones espaciales (las funciones temporales son ondas planas y por tanto completas), esto requiere a su vez que el operador H tenga el carácter de observable. Para t = 0 la Ec. (3.18) nos da ψ (r, 0) = X n X m cnmϕn,m (r) (3.19) de modo que si conocemos el estado inicial del sistema (el cual es en principio arbitrario) podemos descomponerlo en la base de las autofunciones ϕn,m de H (siempre que H sea un observable). Para obtener la evolución temporal basta con multiplicar cada término en (3.19) por e−iEnt/~, debe aclararse que cada término corresponde a una fase diferente y por tanto la superposición ya no corresponde en general a un estado estacionario. Es esencial tener presente que toda esta discusión solo es válida cuando V (r) no es función explı́cita del tiempo, de otro modo no es posible en general tener soluciones con separación de variables. 3.3. Propiedades generales de la ecuación de Schrödinger Retornaremos ahora a la forma general de la ecuación de Schrödinger Ec. (3.10) − ~2 2m ∇2 + V (r, t) ψ (r, t) = i~ ∂ψ (r, t) ∂t H (r, t) ψ (r, t) = i~ ∂ψ (r, t) ∂t (3.20) en la cual el potencial puede depender del espacio y del tiempo. La primera observación relevante es que el operador H es hermı́tico. Para ver esto, basta con tener en cuenta que desde el punto de vista de los kets, las funciones de onda son kets escritos en la representación de coordenadas, y en tal representación el operador H se puede escribir como H = (−i~∇) (−i~∇) 2m + V (r, t) = P2 2m + V (r, t) (3.21)
  • 587.
    3.3. PROPIEDADES GENERALESDE LA ECUACIÓN DE SCHRÖDINGER 161 siendo P el operador definido por las Ecs. (1.188), que en representación de la base {|ri} está dado por la Ec. (1.191). Ya vimos en la sección 1.43.4 que este operador es Hermı́tico, y como V (r, t) es una función real, también es hermı́tica1. En consecuencia H también es hermı́tico. Nótese que esto es indispensable para que el espectro de este operador (la energı́a) sea real (ver teorema 1.62). Ahora bien, recordemos que a cada función de onda en el espacio ̥ le asociamos un ket en el espacio E en la forma ψ (r, t) ↔ |ψ (t)i es conveniente escribir la ecuación de Schrödinger como una ecuación dinámica de los kets (en lugar de la función de onda), debido a que una ecuación planteada para el vector abstracto se puede tomar de manera muy sencilla en cualquier representación. Es fácil ver que la Ec. de Schrödinger para kets de la forma i~ d dt |ψ (t)i = H (t) |ψ (t)i (3.22) conduce a la Ec. de Schrödinger (3.20) cuando usamos la representación de la base {|ri}, siempre que H (t) sea el operador (abstracto) que en representación de la base {|ri} esté dado por (3.21). Para verlo aplicamos el bra hr| a ambos lados de (3.22) i~ hr| d dt |ψ (t)i = hr| H (t) |ψ (t)i dado que |ψ (t)i no depende de r, la derivada total o parcial en el tiempo coinciden para el ket. Adicionalmente, cuando el ket se transforma en función de onda la cual es un campo, debe tenerse en cuenta que las coordenadas r en ψ (r, t) son lugares geométricos y no variables dinámicas, por tanto las variables r y t son todas independientes, de modo que2 i~ hr| d dt |ψ (t)i = i~ hr| ∂ ∂t |ψ (t)i = ∂ ∂t hr |ψ (t)i i~ hr| d dt |ψ (t)i = ∂ψ (r, t) ∂t y de la condición establecida para H (t) se tiene que hr| H (t) |ψ (t)i = H (r, t) hr |ψ (t)i = H (r, t) ψ (r, t) con lo cual se reproduce la Ec. de Schrödinger (3.20) en representación de coordenadas. Veamos las principales propiedades de la ecuación de Schrödinger. 3.3.1. Determinismo en las soluciones Puesto que la ecuación es de primer orden en el tiempo, dado un estado inicial |ψ (t0)i el estado |ψ (t)i en un tiempo t subsequente está determinado, esto se debe a que la ecuación no es invariante ante t → −t (como sı́ ocurre con la ecuación de onda). No hay indeterminación en la evolución del estado del sistema. La indeterminación se produce es con el proceso de medida de una cantidad Fı́sica, en cuyo caso el vector de estado sufre un cambio abrupto y parcialmente impredecible (ya que se puede evaluar una probabilidad para cada cambio abrupto posible). Sin embargo, en el tiempo comprendido entre dos medidas, el vector de estado evoluciona en forma perfectamente determinista según la Ec. (3.22). 3.3.2. Principio de superposición Puesto que la Ec. (3.22) es lineal y homogénea (por construcción), si |ψ1 (t)i y |ψ2 (t)i son soluciones, también lo será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i. Esto implica que si el estado inicial es de la forma |ψ (t0)i = λ1 |ψ1 (t0)i + 1 Visto de otro modo el potencial es un operador del tipo V (r, t) I, siendo I la identidad. Si V (r, t) es real, este operador es hermı́tico. 2 En una teorı́a clásica de campos, las coordenadas espaciales se convierten en parámetros y las coordenadas generalizadas son los campos. Tenemos entonces cuatro parámetros: 3 posiciones y el tiempo, siendo la posiciones lugares geométricos en la “grilla” del espacio euclidiano. Los cuatro parámetros son totalmente independientes unos de otros.
  • 588.
    162 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES λ2 |ψ2 (t0)i entonces el estado en un tiempo t posterior será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i con lo cual tenemos una correspondencia lineal entre |ψ (t0)i y |ψ (t)i. Por tanto, hay un operador lineal conocido como operador evolución temporal que conecta a estas dos funciones |ψ (t)i = U (t, t0) |ψ (t0)i (3.23) analizaremos este operador más en detalle en la Sec. 7.1. 3.3.3. Conservación de la probabilidad En virtud de la interpretación de |ψ (r, t)|2 como una densidad de probabilidad es necesario que hψ (t)| ψ (t)i = kψk2 = Z |ψ (r, t)|2 d3 r = 1 para todo tiempo, i.e. en cualquier instante la partı́cula debe encontrarse en algún lugar del espacio (excepto cuando hay procesos de creación y destrucción de partı́culas que no incluı́mos en el presente formalismo). Esto significa que la norma de un ket |ψ (t)i debe ser constante en el tiempo. Es necesario por tanto que la ecuación de Schrödinger mantenga invariante en el tiempo la norma de los vectores, con el fin de dar una interpretación probabilı́stica coherente. Para mirar la conservación de la probabilidad debemos evaluar la derivada total de la norma en el tiempo d dt hψ (t)| ψ (t)i = d dt hψ (t)| |ψ (t)i + hψ (t)| d dt |ψ (t)i (3.24) la derivada temporal del ket se obtiene directamente de la ecuación de Schrödinger Ec. (3.22) d dt |ψ (t)i = 1 i~ H (t) |ψ (t)i (3.25) para obtener la derivada temporal del bra, sacamos el hermı́tico conjugado de dicha ecuación d dt hψ (t)| = − 1 i~ hψ (t)| H† (t) = − 1 i~ hψ (t)| H (t) (3.26) donde hemos usado la hermiticidad de H. Reemplazando (3.25) y (3.26) en (3.24) se obtiene d dt hψ (t)| ψ (t)i = − 1 i~ hψ (t)| H (t) |ψ (t)i + hψ (t)| 1 i~ H (t) |ψ (t)i = 0 esto implica entonces que si normalizamos el estado inicial, el estado en cualquier tiempo continuará normaliza- do. Nótese la importancia de la hermiticidad de H para lograr la conservación de la norma y por tanto, de la probabilidad. 3.3.4. La ecuación de continuidad para la probabilidad Por simplicidad trabajaremos el caso de una sola partı́cula (sin espı́n). Asumiremos que la función de onda ψ (r, t) está normalizada, en tal caso |ψ (r, t)|2 representa la densidad de probabilidad de que la partı́cula esté en la posición r en el tiempo t dP (r, t) = ρ (r, t) dV = |ψ (r, t)|2 dV (3.27) tenemos que la probabilidad total nos da PT ≡ Z ρ (r, t) dV = 1
  • 589.
    3.3. PROPIEDADES GENERALESDE LA ECUACIÓN DE SCHRÖDINGER 163 para todo tiempo, de modo que PT representa una “carga generalizada” que se conserva. Por supuesto esto no significa que la distribución de esta “carga” (distribución de probabilidad), permanezca igual en el tiempo para cada punto r, las variaciones de ρ (r, t) con el tiempo generan una propagación de la distribución de carga. En general tanto las variaciones espaciales como temporales de ρ (r, t) generan una corriente de probabilidad, si ρ no es función del tiempo se genera una corriente estacionaria. Recordemos que el volumen no es necesariamente todo el espacio si existen regiones con probabilidad cero. Lo importante es que no cruce corriente de probabilidad en la superficie que delimita al volumen de integración, ya que si esto ocurre, habrá probabilidad diferente de cero en regiones que en tiempos anteriores eran inaccesibles. Esta situación es análoga al caso en que ρ (r, t) simbolizaba una densidad de carga eléctrica a la cual le podemos asociar una densidad de corriente J (r, t). Es bien conocido que la conservación global de la carga generalizada proviene de una ley de conservación local que prohibe la creación espontánea de carga generalizada neta. Esto implica que si tomamos un volumen por cuya superficie limitadora cruza corriente de carga generalizada, el flujo neto de carga por la superficie hacia afuera (adentro) debe estar compensado por una disminución (aumento) en la carga interior al volumen, el enunciado preciso de esta ley local de conservación es ∂ ∂t ρ (r, t) + ∇ · J (r, t) = 0 (3.28) siendo ρ la densidad de carga generalizada y J la densidad de corriente generalizada, esta expresión es conocida como ecuación de continuidad. Puesto que hemos encontrado la carga conservada (probabilidad total) y definido ya la densidad de probabilidad, debemos encontrar una densidad de corriente de probabilidad que nos dé una ecuación de la forma (3.28), en este caso estamos tratando a la probabilidad como un fluı́do o medio contı́nuo. Volveremos a la ecuación de Schrödinger en representación de coordenadas dado por (3.10) − ~2 2m ∇2 ψ (r, t) + V (r, t) ψ (r, t) = i~ ∂ψ (r, t) ∂t (3.29) el potencial V (r, t) debe ser real para que H sea hermı́tico (lo cual es esencial para la conservación de la proba- bilidad como ya vimos). La ecuación compleja conjugada de la Ec. de Schrödinger es − ~2 2m ∇2 ψ∗ (r, t) + V (r, t) ψ∗ (r, t) = −i~ ∂ψ∗ (r, t) ∂t (3.30) multiplicamos (3.29) por ψ∗ (r, t) y (3.30) por −ψ (r, t) y sumamos − ~2 2m ψ∗ (r, t) ∇2 ψ (r, t) + V (r, t) ψ∗ (r, t) ψ (r, t) = i~ψ∗ (r, t) ∂ψ (r, t) ∂t ~2 2m ψ (r, t) ∇2 ψ∗ (r, t) − V (r, t) ψ (r, t) ψ∗ (r, t) = i~ψ (r, t) ∂ψ∗ (r, t) ∂t quedando − ~2 2m ψ∗ ∇2 ψ − ψ∇2 ψ∗ = i~ ψ∗ ∂ψ ∂t + ψ ∂ψ∗ ∂t − ~ 2mi ψ∗ ∇2 ψ − ψ∇2 ψ∗ = ∂ ∂t [ψ∗ ψ] sumando y restando un término a la izquierda − ~ 2mi ψ∗ ∇2 ψ + (∇ψ∗ ) · (∇ψ) − (∇ψ∗ ) · (∇ψ) − ψ∇2 ψ∗ = ∂ ∂t [ψ∗ ψ] − ~ 2mi ∇ · [ψ∗ ∇ψ − ψ∇ψ∗ ] = ∂ρ ∂t
  • 590.
    164 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES quedando finalmente ∂ρ ∂t + ∇ · ~ 2mi [ψ∗ ∇ψ − ψ∇ψ∗ ] = 0 (3.31) y comparando (3.31) con la ecuación (3.28) de continuidad se tiene que J = ~ 2mi [ψ∗ ∇ψ − ψ∇ψ∗ ] esta ecuación se puede reescribir definiendo J = ~ m 1 2i [Z − Z∗ ] ; Z ≡ ψ∗ ∇ψ J = 1 m 1 2 ~Z i + ~Z i ∗ = 1 m Re ~Z i de modo que J (r, t) = ~ 2mi [ψ∗ ∇ψ − ψ∇ψ∗ ] = 1 m Re ψ∗ ~ i ∇ψ (3.32) hemos probado entonces la conservación local de la probabilidad y encontramos la forma explı́cita de la densidad de corriente, la cual es real como era de esperarse. Vale la pena calcular la corriente de probabilidad para el caso especial de estados estacionarios de la forma (3.15), en tal caso al reemplazar (3.15) en (3.32) resulta J = ~ 2mi [ψ∗ ∇ψ − ψ∇ψ∗ ] = ~ 2mi n ϕ (r) e−iωt ∗ ∇ ϕ (r) e−iωt − ϕ (r) e−iωt ∇ ϕ (r) e−iωt ∗ o J = ~ 2mi ϕ∗ (r) eiωt e−iωt ∇ϕ (r) − ϕ (r) e−iωt eiωt ∇ϕ∗ (r) quedando finalmente J (r) = ~ 2mi {ϕ∗ (r) ∇ϕ (r) − ϕ (r) ∇ϕ∗ (r)} = 1 m Re ϕ∗ (r) ~ i ∇ϕ (r) estados estacionarios (3.33) comparando, (3.32) con (3.33), vemos que para estados estacionarios, la corriente se puede calcular reemplazando ψ (r, t) por ϕ (r), es decir omitiendo la componente temporal de ψ. Efectivamente, (3.33) corresponde a una corriente estacionaria tal como se usa en mecánica clásica, i.e. una corriente que depende de la posición pero que no depende explı́citamente del tiempo. 3.3.5. Expresión polar de la corriente de probabilidad Consideremos una función de onda arbitraria ψ (r), utilizando su descomposición compleja polar tenemos ψ (r) = α (r) eiξ(r) ; α (r) ≥ 0 , 0 ≤ ξ (r) 2π si sustituı́mos esta expresión polar en la Ec. (3.32) para la densidad de corriente de probabilidad encontramos que3 J (r) = ~ 2mi n α (r) e−iξ(r) ∇ h α (r) eiξ(r) i − α (r) eiξ(r) ∇ h α (r) e−iξ(r) io = ~ 2mi n α (r) e−iξ(r) eiξ(r) [∇α (r) + iα (r) ∇ξ (r)] − α (r) eiξ(r) e−iξ(r) [∇α (r) − iα (r) ∇ξ (r)] o J (r, t) = ~ m α2 (r, t) ∇ξ (r, t) (3.34) 3 Por simplicidad hemos omitido la posible dependencia explı́cita del tiempo pero esto no altera los resultados.
  • 591.
    3.4. APLICACIÓN DELA ECUACIÓN DE SCHRÖDINGER A POTENCIALES DISCONTÍNUOS 165 y la densidad de probabilidad está dada por ρ (r, t) = |ψ (r, t)|2 = α2 (r, t) (3.35) vemos que ρ (r, t) solo depende del módulo del complejo ψ (r, t), en tanto que J (r, t) depende del módulo y del gradiente de la fase. Por ejemplo, si la fase es constante en el espacio, J (r, t) es cero, aunque la densidad no lo sea4. Las Ecs. (3.34, 3.35) nos dan a J (r, t) y ρ (r, t) cuando conocemos ψ (r, t), vale preguntarse si inversamente podemos determinar unı́vocamente a ψ (r, t) con base en el conocimiento de J (r, t) y ρ (r, t). La Ec. (3.35) nos da a ρ (r, t) en función del módulo de ψ (r, t). Por otro lado, dividiendo las Ecs. (3.34, 3.35) resulta ∇ξ (r, t) = m ~ J (r, t) ρ (r, t) esta ecuación solo tiene solución si ∇ × J (r, t) ρ (r, t) = 0 (3.36) que tiene un conjunto infinito de soluciones que solo diferen en una constante (o en una función solo del tiempo), que corresponderı́a a una fase global irrelevante en ψ (r, t). Por tanto, si conocemos a ρ (r, t) y J (r, t) entonces ψ (r, t) está bien especificada siempre y cuando se satisfaga la condición (3.36). Si dicha condición no se satisface, no existe una función de onda asociada a ρ (r, t) y J (r, t) incluso si éstas cumplen con la ecuación de continuidad. 3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos Hemos visto que los efectos cuánticos no son evidentes cuando se considera a h como muy pequeña. En particular, si la longitud de onda λ = h/p asociada a la partı́cula es mucho menor que todas las demás longitudes involucradas en el problema, la naturaleza ondulatoria de la materia quedará apantallada y el comportamiento de la partı́cula será esencialmente clásico. Esto es análogo a lo que ocurre entre la óptica geométrica y la óptica ondulatoria. Cuando la longitud de la onda es mucho menor que las demás longitudes involucradas en el problema, la óptica geométrica nos predice muy bien los fenómenos ópticos, el comportamiento de los rayos es esencialmente corpuscular. Cuando esto no se cumple, los aspectos ondulatorios de la luz se vuelven importantes para una adecuada descripción de los fenómenos. De la misma forma, cuando un potencial actúa sobre una partı́cula, los efectos cuánticos debidos a esta interacción solo serán significativos si el potencial varı́a significativamente sobre una distancia menor a la longitud de onda de DeBroglie asociada a la partı́cula. Es por esta razón que estudiaremos potenciales discontı́nuos en donde la variación será finita para una distancia básicamente cero (es decir menor que cualquier longitud de onda). Es claro que esto constituye una idealización ya que los potenciales fı́sicos deben ser contı́nuos si bien pueden exhibir una enorme pendiente. Este lı́mite solo corresponderá aproximadamente a la realidad si la distancia δx en que ocurre esta fuerte variación, es mucho menor que la longitud de onda de De Broglie asociada a la partı́cula y mucho menor que cualquier otra longitud tı́pica del problema. Estos potenciales se podrán definir adecuadamente a través de la función paso definida por θ (x − x0) = 0 si x x0 1 si x x0 3.5. Potenciales rectangulares, análogo óptico Definamos un potencial de la forma 4 Esto es una consecuencia más del carácter intrı́nsecamente complejo de la función de onda, pues la fase tiene un claro contenido fı́sico.
  • 592.
    166 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES V (x) =    V0 si −∞ x x0 V1 si x0 x x1 V2 si x1 x ∞ ; V1 V2 V0 (3.37) la fuerza F (x) = −dV (x) /dx serı́a del tipo F (x) = F0δ (x − x0) − F1δ (x − x1) En primer lugar las predicciones de la mecánica clásica son inmediatas, por ejemplo si V (x) es una energı́a potencial gravitacional, el perfil del potencial representa el perfil de la superficie sobre la cual se mueve la partı́cula, los valores de x para los cuales E V estarán prohibidos. En las regiones de potencial constante la velocidad de la partı́cula es constante ya que es libre, solo en las discontinuidades experimenta una fuerza y si pasa a la otra región (si E V ) su energı́a cinética se verá aumentada (disminuı́da) si pasa a una zona de menor (mayor) potencial. Como el potencial no depende del tiempo podemos encontrar soluciones estacionarias para la ecuación de Schrödinger. En la región de potencial constante V , la ecuación de Schrödinger independiente del tiempo nos da − ~2 2m d2 dx2 + V ϕ (x) = Eϕ (x) d2 dx2 + 2m ~2 (E − V ) ϕ (x) = 0 (3.38) escrita en esta forma la ecuación tiene un interesante análogo óptico. Consideremos un medio transparente de ı́ndice de refracción n independiente de la posición y el tiempo. En tal medio puede haber ondas electromagnéticas con campo eléctrico independiente de y y z E (r, t) = uE (x) e−iΩt (3.39) siendo u un vector unitario perpendicular al eje x, teniendo en cuenta que E satisface la ecuación de onda y las ecuaciones de Maxwell, resulta d2 dx2 + n2Ω2 c2 E (x) = 0 (3.40) las Ecs. (3.38) y (3.40) son idénticas si hacemos la asignación 2m ~2 (E − V ) = n2Ω2 c2 (3.41) adicionalmente, en los lugares en donde V (y por tanto n) son discontı́nuos las condiciones de frontera para ϕ (x) y E (x) son las mismas: las soluciones y sus primeras derivadas deben permanecer contı́nuas (lo veremos más adelante para las ϕ (x)). Esta analogı́a permite asociar al problema de una partı́cula en un potencial del tipo (3.37) un problema óptico asociado a la propagación de una onda electromagnética de frecuencia angular Ω en un medio cuyo ı́ndice de refracción n tiene discontinuidades del mismo tipo. En la Ec. (3.41) podemos despejar para n (Ω) y obtener n (Ω) = 1 ~Ω p 2mc2 (E − V ) (3.42) nótese que para la onda electromagnética, la región con E V corresponde a un medio transparente con ı́ndice de refracción real y la onda es de la forma eikx. Por otro lado, cuando E V corresponde a un medio con un ı́ndice de refracción imaginario de modo que n2 0 y al reemplazar esto en (3.40) se obtiene una solución de la forma e−ρx que es del tipo de onda evanescente. Debe tenerse en cuenta que si bien obtendremos un comportamiento funcional análogo al óptico, la interpre- tación probabilı́stica es muy diferente a la interpretación clásica para onda electromagnética.
  • 593.
    3.5. POTENCIALES RECTANGULARES,ANÁLOGO ÓPTICO 167 3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto Veamos ahora la estrategia especı́fica de solución para los estados estacionarios de la partı́cula sometidas a potenciales discontı́nuos. En las regiones de energı́a potencial constante usamos la Ec. (3.38) d2 dx2 + 2m ~2 (E − V ) ϕ (x) = 0 (3.43) es útil distinguir tres casos (a) E V , introduzcamos por conveniencia una constante positiva k definida por E − V ≡ ~2k2 2m (3.44) al reemplazar en (3.43) queda d2 dx2 + k2 ϕ (x) = 0 (3.45) que es la ecuación de un oscilador armónico y la solución de la Ec. (3.45) se puede escribir como ϕ (x) = Aeikx + A′ e−ikx (3.46) donde A y A′ son complejos constantes. (b) E V , esta condición corresponde a regiones del espacio que están clásicamente prohibidas. En este caso introducimos la constante positiva ρ dada por V − E ≡ ~2ρ2 2m (3.47) y la Ec. (3.43) queda d2 dx2 − ρ2 ϕ (x) = 0 (3.48) con solución ϕ (x) = Beρx + B′ e−ρx (3.49) siendo B y B′ constantes complejas. (c) E = V , en este caso d2ϕ (x) dx2 = 0 ⇒ ϕ (x) = Cx + C′ Ahora veamos el comportamiento de las soluciones en la discontinuidad. La primera tentación es pensar que la función de onda debe ser discontı́nua en un punto donde el potencial lo sea, veremos sin embargo que tanto ϕ (x) como dϕ (x) /dx deben ser contı́nuas y solo es la segunda derivada d2ϕ (x) /dx2 la que es discontı́nua en el punto. Para ver esto, recordemos que un potencial con una discontinuidad de salto en x1 representa en fı́sica el lı́mite cuando ε → 0 de un potencial Vε (x) que es igual a V (x) fuera del intervalo [x1 − ε, x1 + ε], pero que varı́a de forma contı́nua en dicho intervalo. Consideremos la ecuación d2 dx2 ϕε (x) + 2m ~2 [E − Vε (x)] ϕε (x) = 0 (3.50) asumimos que Vε (x) está acotado en el intervalo [x1 − ε, x1 + ε], y que esta cota no depende del parámetro ε. Esto se cumple en la mayorı́a de los casos, ya que usualmente Vε estará definido dentro de los valores [V0, V1] que se tienen en la discontinuidad de salto a la izquierda y la derecha de x1. Escogemos una solución ϕε (x) que para x x1 − ε y para x x1 + ε coincida con una solución dada de la Ec. (3.43). La idea es demostrar que cuando ε → 0 entonces ϕε (x) tiende a una función ϕ (x) contı́nua y diferenciable a primer orden en x1. Es posible probar
  • 594.
    168 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES a través de las propiedades de la ecuación diferencial (3.43) que ϕε (x) permanece acotada para cualquier valor de ε con una cota independiente de ε, en la vecindad de x = x1. Esto fı́sicamente implica que la densidad de probabilidad permanece finita. Integrando la Ec. (3.50) en el intervalo [x1 − η, x1 + η] resulta Z x1+η x1−η d dx d dx ϕε (x) dx + 2m ~2 Z x1+η x1−η [E − Vε (x)] ϕε (x) dx = 0 dϕε (x1 + η) dx − dϕε (x1 − η) dx = 2m ~2 Z x1+η x1−η [Vε (x) − E] ϕε (x) dx (3.51) y dado que Vε (x) y ϕε (x) permanecen acotados con cotas independientes de ε, la integral a la derecha de la Ec. (3.51) tiende a cero cuando η tiende a cero. Por lo tanto lı́m η→0 dϕε (x1 + η) dx − dϕε (x1 − η) dx = 0 por tanto, en este lı́mite, dϕ/dx es contı́nua en x = x1 y por tanto también ϕ (x) ya que derivabilidad implica continuidad. Por otro lado, d2ϕ/dx2 es discontı́nua en x = x1 puesto que en la Ec. (3.43) vemos que lı́m η→0+ d2ϕ (x1 + η) dx2 + 2m ~2 [E − V (x1 + η)] ϕ (x1 + η) = 0 lı́m η→0+ d2ϕ (x1 + η) dx2 = lı́m η→0+ 2m ~2 {[V (x1 + η) − E] ϕ (x1 + η)} lı́m η→0+ d2ϕ (x1 + η) dx2 = 2m ~2 {[V1 − E] ϕ (x1)} siendo V1 el valor del potencial a la derecha de x1, similarmente lı́m η→0− d2ϕ (x1 + η) dx2 = 2m ~2 {[V0 − E] ϕ (x1)} siendo V0 el valor del potencial a la izquierda de x1. Tenemos entonces que en x1 la segunda derivada presenta un salto dado por lı́m η→0+ d2ϕ (x1 + η) dx2 − lı́m η→0− d2ϕ (x1 + η) dx2 = 2m ~2 (V1 − V0) ϕ (x1) esto es una discontinuidad de salto para la segunda derivada ya que V1 6= V0. Nótese sin embargo, que la segunda derivada permanece acotada. Es importante resaltar la importancia de que Vε (x) permanezca acotado. Por ejem- plo, si V (x) = aδ (x) tenemos una función cuya integral permanece finita pero que no es acotada. En tal caso, ϕ (x) permanece contı́nua pero no la primera derivada. Por tanto, para encontrar la solución de los estados estacionarios cuando el potencial es contı́nuo a trozos con discontinuidades de salto finito, calculamos primero las soluciones para las regiones en donde el potencial es constante (con E V ó E V según el caso), y hacemos el “empalme” en los puntos donde hay discontinuidades exigiendo la continuidad de la solución y de su primera derivada. 3.5.2. Expresión para la corriente en regiones de potencial constante Por simplicidad consideraremos un problema unidimensional de una partı́cula colocada en un potencial cons- tante V0. Aunque este caso corresponde a partı́cula libre, resulta interesante obtener la corriente en términos de V0 ya que después consideraremos la posibilidad de regiones con potencial constante pero diferente en cada región. Como la corriente (3.33) depende de la solución para la función de onda estacionaria debemos considerar varios casos según la sección 3.5.1
  • 595.
    3.5. POTENCIALES RECTANGULARES,ANÁLOGO ÓPTICO 169 (a) E V0, en tal caso la solución estacionaria viene dada por la Ec. (3.46) ϕ (x) = Aeikx + A′ e−ikx (3.52) donde hemos usado la definición (3.44) E − V0 ≡ ~2k2 2m y sustituyendo (3.52) en la expresión (3.33) para la corriente Jx = ~ 2mi [ϕ∗ ∂xϕ − ϕ∂xϕ∗ ] Jx = ~ 2mi h A∗ e−ikx + A′∗ eikx ∂x Aeikx + A′ e−ikx − Aeikx + A′ e−ikx ∂x A∗ e−ikx + A′∗ eikx i Jx = ~ 2mi h A∗ e−ikx + A′∗ eikx ikAeikx − ikA′ e−ikx − Aeikx + A′ e−ikx −ikA∗ e−ikx + ikA′∗ eikx i Jx = ~k 2m h A∗ e−ikx + A′∗ eikx Aeikx − A∗ e−ikx + A′∗ eikx A′ e−ikx + Aeikx + A′ e−ikx A∗ e−ikx − Aeikx + A′ e−ikx A′∗ eikx i Jx = ~k 2m h A∗ A + A′∗ Ae2ikx − A∗ A′ e−2ikx − A′∗ A′ + AA∗ + A′ A∗ e−2ikx − AA′∗ e2ikx − A′ A′∗ i Jx = ~k 2m h 2 |A|2 + A′∗ Ae2ikx − AA′∗ e2ikx − A∗ A′ e−2ikx + A′ A∗ e−2ikx − 2
  • 597.
  • 599.
  • 601.
  • 603.
    2 i (3.53) el signo relativose puede entender teniendo en cuenta que la función de onda (3.52) representa dos ondas con momentos opuestos p = ±~k con densidades de probabilidad |A|2 y |A′|2 , además ~k m = p m = vg nos dice que Jx es de la forma ρvg como era de esperarse. (b) Cuando E V0 la solución está dada por las Ecs. (3.47, 3.49) ϕ (x) = Beρx + B′ e−ρx (3.54) V0 − E ≡ ~2ρ2 2m (3.55) sustituyendo (3.54) en (3.33) nos da Jx = ~ 2mi [ϕ∗ ∂xϕ − ϕ∂xϕ∗ ] Jx = ~ 2mi B∗ eρx + B′∗ e−ρx ∂x Beρx + B′ e−ρx − Beρx + B′ e−ρx ∂x B∗ eρx + B′∗ e−ρx Jx = ~ 2mi B∗ eρx + B′∗ e−ρx ρBeρx − ρB′ e−ρx − Beρx + B′ e−ρx ρB∗ eρx − ρB′∗ e−ρx Jx = ~ρ 2mi B∗ eρx + B′∗ e−ρx Beρx − B∗ eρx + B′∗ e−ρx B′ e−ρx − Beρx + B′ e−ρx B∗ eρx + Beρx + B′ e−ρx B′∗ e−ρx Jx = ~ρ 2mi B∗ Be2ρx + B′∗ B − B∗ B′ − B′∗ B′ e−2ρx − BB∗ e2ρx − B′ B∗ + BB′∗ + B′ B′∗ e−2ρx Jx = ~ρ 2mi B∗ Be2ρx − BB∗ e2ρx + 2B′∗ B − 2B∗ B′ − B′∗ B′ e−2ρx + B′ B′∗ e−2ρx Jx = ~ρ 2mi 2B′∗ B − 2B∗ B′
  • 604.
    170 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES Jx = ~ρ 2mi BB′∗ − B∗ B′ = ~ρ m Im BB′∗ (3.56) vemos que es necesario que en la función de onda (3.54) ambos coeficientes sean no nulos para que la corriente de probabilidad sea diferente de cero. 3.6. El potencial escalón Figura 3.1: Perfil de un potencial escalón con discontinuidad en x = 0 y altura V0. Definamos un potencial en la forma V (x) = V0θ (x) = 0 si x 0 (Región I) V0 si x 0 (Región II) cuyo perfil se ilustra en la Fig. 3.1. Asumiremos que la partı́cula viene desde x = −∞ en t = −∞ de modo que inicialmente solo hay una onda viajera que se propaga hacia la derecha. Distinguiremos dos casos 3.6.1. E V0, reflexión parcial Como la energı́a es mayor que el potencial en ambas regiones, la Ec. (3.45) y la definición (3.44) son válidas para las dos regiones I y II d2 dx2 + k2 1 ϕ (x) = 0 ; k1 ≡ r 2mE ~2 (región I) (3.57) d2 dx2 + k2 2 ϕ (x) = 0 ; k2 ≡ r 2m (E − V0) ~2 (región II) (3.58) ası́ mismo las soluciones en las dos regiones son de la forma (3.46) ϕI (x) = A1eik1x + A′ 1e−ik1x ; ϕII (x) = A2eik2x + A′ 2e−ik2x (3.59) dϕI (x) dx = ik1 A1eik1x − A′ 1e−ik1x ; dϕII (x) dx = ik2 A2eik2x − A′ 2e−ik2x (3.60) y puesto que la ecuación (3.43) es homogénea, si ϕ es solución también lo será ϕ/A, siendo A una constante. Esto implica que solo podemos determinar los cocientes entre las amplitudes pero no todas las amplitudes. Ahora bien,
  • 605.
    3.6. EL POTENCIALESCALÓN 171 puesto que la amplitud de entrada es la de la onda incidente, es decir la de la onda que viaja hacia la derecha en la región I, tenemos que A1 es el parámetro de entrada y todos los demás deben compararse con él. Por tanto determinaremos los cocientes A′ 1 A1 , A2 A1 , A′ 2 A1 . Veamos la información que nos dan las condiciones de empalme, la continuidad de la función en x = 0 nos da lı́m x→0− ϕ (x) = lı́m x→0+ ϕ (x) ⇒ ϕI (x = 0) = ϕII (x = 0) A1 + A′ 1 = A2 + A′ 2 (3.61) y la continuidad de la primera derivada en x = 0 nos da lı́m x→0− dϕ (x) dx = lı́m x→0+ dϕ (x) dx ⇒ dϕI (x = 0) dx = dϕII (x = 0) dx k1 A1 − A′ 1 = k2 A2 − A′ 2 (3.62) como solo tenemos dos ecuaciones (3.61) y (3.62) para los tres cocientes, debemos fijar una amplitud para poder determinar los cocientes. Para ello tengamos en cuenta que cuando la función de onda penetra la región II vuelve a ser una función de onda libre (potencial constante) y ya hemos visto que la función de onda libre es una onda viajera en una sola dirección, de modo que no es de esperarse que surja una onda reflejada en el interior de la región II (solo en el lı́mite entre I y II donde sı́ hay interacción). En consecuencia, no habrá onda reflejada en la región II, por lo cual según la Ec. (3.59) vemos que A′ 2 = 0 (3.63) nótese que esto está relacionado con el hecho de que hayamos tomado el caso de una partı́cula incidente que proviene de x = −∞ (condiciones iniciales)5. Las Ecs. (3.61, 3.62) se simplifican a A1 + A′ 1 = A2 ; k1 A1 − A′ 1 = k2A2 (3.64) A1 + A′ 1 A1 = A2 A1 ; k1 (A1 − A′ 1) A1 = k2 A2 A1 1 + A′ 1 A1 = A2 A1 ; k1 k2 1 − A′ 1 A1 = A2 A1 (3.65) igualando las dos Ecs. (3.65) 1 + A′ 1 A1 = k1 k2 1 − A′ 1 A1 ⇒ 1 − k1 k2 = − 1 + k1 k2 A′ 1 A1 ⇒ k2 − k1 k2 = − k2 + k1 k2 A′ 1 A1 A′ 1 A1 = k1 − k2 k1 + k2 y reemplazando en la primera de las Ecs. (3.65) 1 + k1 − k2 k1 + k2 = A2 A1 ⇒ 2k1 k1 + k2 = A2 A1 tenemos entonces que las condiciones iniciales y de empalme nos llevan a A′ 2 = 0 ; A′ 1 A1 = k1 − k2 k1 + k2 0 ; A2 A1 = 2k1 k1 + k2 0 (3.66) 5 Si la partı́cula proviniera de x = +∞ y viajara hacia la izquierda, esperarı́amos onda incidente y reflejada en la región II y solo onda transmitida en la región I.
  • 606.
    172 CAPÍTULO 3.ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES donde el hecho de que el primer cociente es positivo proviene de las expresiones para k1 y k2 Ecs. (3.57, 3.58). Ahora bien, para E V0, la función ϕI (x) en la Ec. (3.59) representa dos ondas con momentos opuestos, es decir propagándose en direcciones opuestas. La onda proporcional a A1 se propaga de izquierda a derecha de modo que representa una partı́cula incidente (p = ~k1), la onda proporcional a A′ 1 tiene momento p = −~k1 por lo cual representa una partı́cula reflejada. Puesto que A′ 2 = 0 tenemos que ϕII (x) en la Ec. (3.59) representa solo una onda que corresponde a una partı́cula transmitida. Es natural entonces preguntarse por la probabilidad de que una partı́cula que incide desde x = −∞ pase el escalón de potencial o rebote en él (que en términos cuánticos es la probabilidad de detectar a la partı́cula en las regiones II y I respectivamente). A tales cantidades las llamaremos coeficientes de transmisión T y de reflexión R respectivamente. Para calcular estas cantidades debemos calcular primero la corriente asociada a cada región de potencial constante. Para el caso E V0 esta corriente viene dada por las Ecs. (3.52, 3.53), que aplicadas a las soluciones (3.59) y con la condición A′ 2 = 0 Ec. (3.63) nos da JI (x) = ~k1 m h |A1|2 −
  • 608.
  • 610.
    2 i (3.67) JII (x) = ~k2 m |A2|2 (3.68) JIes la superposición entre la corriente incidente y la corriente reflejada, en tanto que JII es la corriente trans- mitida, por lo tanto JI (x) = Jinc + Jrefl ; Jinc = ~k1 m |A1|2 ; Jrefl = − ~k1 m
  • 612.
  • 614.
    2 JII (x) =Jtr = ~k2 m |A2|2 Ahora bien, la corriente incidente Jinc se divide en dos términos cuando incide sobre la discontinuidad: la corriente reflejada y la transmitida Jinc = Jtr + Jrefl El coeficiente de reflexión del escalón es entonces el cociente entre la corriente reflejada sobre la corriente incidente R =
  • 618.
  • 622.
  • 626.
  • 630.
    2 (3.69) y el coeficientede transmisión es el cociente entre la corriente transmitida sobre la corriente incidente T =
  • 634.
  • 638.
  • 642.
  • 646.
    2 (3.70) podemos escribir Ry T en términos de k1 y k2. Para hacerlo con R reemplazamos (3.66) en (3.69) R =
  • 650.
  • 654.
  • 658.
  • 662.
    2 = (k1 − k2)2 (k1+ k2)2 = (k1 + k2)2 − 4k1k2 (k1 + k2)2 R = 1 − 4k1k2 (k1 + k2)2 para el caso de T, reemplazamos (3.66) en (3.70) T = k2 k1