Este documento describe cómo extraer datos de páginas web mediante screen scraping utilizando diferentes lenguajes de programación como Ruby y Java. Explica las herramientas disponibles como HTree, REXML, Hpricot y Mechnize y cómo usarlas para simular el comportamiento humano al navegar por páginas y extraer datos de forma automatizada. También cubre técnicas como el uso de proxies y Tor para realizar peticiones de forma anónima.