SlideShare una empresa de Scribd logo
1 de 6
HIPI: Hadoop Interfaz para procesamiento de
imágenes Image-based MapReduce tareas
Chris Sweeney Liu Liu Seán Arietta Jason Lawrence
Universidad de Virginia
Figura 1:Un típicoHadoop MapReduce canalizaciónmediante nuestra interfaz de procesamientode imagencon n imágenes, puedo
asignar nodos ynodos j reducir
Resumen
La cantidadde imágenesque se suben a Internet está aumentando
rápidamente, con usuarios de Facebook cargar más de 2,5 mil
millones de fotos nuevascada mes Facebook [2010], sinembargo,
las aplicaciones que hacen uso de estos datos carecen
gravemente. Aplicaciones de la visión por computador actual
utilizar un pequeño número de imágenes de entrada debido a la
dificultad radica en la adquisición de los recursos informáticos y
las opciones de almacenamiento para grandes cantidades de
datos [Guo... 2005;Blancoet al. 2010]. Como tal, el desarrollode
aplicaciones de visión que utilizan un conjunto grande de
imágenes ha sido limitado [Ghemawat y Gobioff... 2003]. El
Hadoop Mapreduce plataforma proporciona un sistema para
grandes y computacionalmente intensiva del procesamiento
distribuido (Dean, 2004), aunque el uso de sistema Hadoops está
severamente limitada por las complejidades técnicas de desarrollo
de aplicaciones útiles [Ghemawat y Gobioff... 2003; Blanco et al.
2010]. A abordar de inmediato este, proponemos una fuente
abierta de Hadoop Interfaz de procesamiento de imágenes (HIPI)
que pretende crear una interfaz para visión por computador con
tecnología MapReduce. HIPI abstrae los detalles altamente
técnicos de Hadoop y del sistema es lo suficientemente flexible
como para aplicar muchas de las técnicas de visión por
computador en la actual literatura. Este documento describe el
marco HIPI, ydescribe dos ejemplos de aplicaciones que han sido
implementadas con HIPI. El objetivo de HIPI es crear una
herramienta que hará eldesarrollo de procesamientode imágenes
a gran escala yproyectos de visión extremadamente accesible con
la esperanza de que esto facultará a investigadores yestudiantes
para crear aplicaciones con facilidad. Keywords:mapreduce, visión
por computador, procesamiento de imágenes
1 Introducción
Muchos de procesamiento de imagen y visión por computador
algoritmos son aplicables a tareas de datos a gran escala. A
menudo es conveniente ejecutar estos algoritmos en grandes
conjuntos de datos (p.ej. Mayores de 1 TB) que actualmente están
limitadaspor la potencia de cálculode unordenador [Guo... 2005].
Estas tareas se realizan normalmente en un sistema distribuido,
dividiendola tarea en uno o más de lassiguientes características:
parámetros delalgoritmo, imágeneso píxeles[Blancoet al. 2010].
Realización de tareas a través de un parámetro concreto es
increíblemente paralelo y a menudo puede ser perfectamente
paralelos. Detección facial yclasificaciónhistórica sonejemplos de
este tipo de algoritmos [Li y Crandall... 2009; Liu et al. 2009]. La
capacidad de establecer paralelismos entre tales tareas permite
escalable, eficiente ejecuciónde aplicaciones intensivas en uso de
recursos. El MapReduce Framework proporciona una plataforma
para tales aplicaciones.
Visión básica de las aplicaciones que utilizanMapReduce Hadoops
framework requieren una curva de aprendizaje asombrosa y
abrumadora complejidad [Blanco et al. 2010]. La sobrecarga
necesaria para implementar estas aplicaciones lesiona
gravemente el progresode los investigadores [Blanco et al. 2010;
Li y Crandall... 2009]. HIPI elimina los detalles altamente técnicos
de sistema Hadoops y proporciona a los usuarios familiarizados
con la sensaciónde una biblioteca de imágenesconel accesoa los
recursos avanzados de un sistema distribuido[DeanyGhemawat
2008; Apache 2010]. Nuestra plataforma se centra en dar a los
usuarios unaccesosinprecedentes a estructurasde datos basadas
en imágenesconunoleoducto que es intuitivo para el MapReduce
system, que permite el uso fácil y flexible para aplicaciones de
visión. Debido a la similitud de objetivos en nuestros marcos,
tomamos particular inspiración del proyecto Frankencamera
como un modelo para el diseño de una API abierta para
proporcionar acceso a recursos informáticos.
Hemos diseñadoHIPI conlos objetivos de facilitar una plataforma
suficientemente específicas para contener un marco pertinente
aplicable para todo el procesamiento de imágenes y aplicaciones
de la visión por computador, pero lo suficientemente flexible
como para soportar los cambios continuos y mejoras dentro de
Hadoops Mapreduce sistema. Esperamos promover HIPI vision
research por estas razones. HIPI es en gran parte un proyecto de
diseño de software, impulsada por los objetivos primordiales de
Imagen Hipi
unir
imágenes
1...k
...
imágenes
n-k....n
Cull
Mapa 1
...
Mapa i
Shuffle
reducen 1
...
Reducir j
resultad
o
abstraer la funcionalidad de Hadoop en una imagen centrada en
el sistema yproporcionar unsistema extensible que proporcionará
a los investigadores una herramienta para utilizar eficazmente
Hadoops Mapreduce sistema para el procesamiento de imágenes
y visión por computador. Creemos que esta facilidad de uso y
control de usuario hará que el proceso para la creación de
experimentos de visión a gran escala y aplicaciones. Como
resultado, el HIPI sirve como una excelente herramienta para
investigadores en visión por computador, porque permite el
desarrollo en gran escala de las aplicaciones de la visión por
computador para ser más accesible que nunca. A nuestro saber,
somos el primer grupo para proporcionar una interfazabiertapara
el procesamiento de imágenes y visión por computador para
aplicaciones Mapreduce Hadoops plataforma [White et al. 2010].
En la siguiente sección se describirá la labor anterior enesta área.
En particular, comentamos la motivación para crear unmarcoque
permita imagebased a gran escala de aplicaciones de visión. A
continuación, describimos la descripción de la biblioteca HIPI
incluyendo el sacrificio, el mapa, y reducir las etapas. Además,
describir nuestro enfoque para la distribución de tareas para el
MapReduce canalización. Por último, nos muestran las
capacidades de HIPI con dos ejemplos de aplicaciones de visión
utilizandoHIPI.
2 Trabajo previo
Con la proliferación de almacenamiento de fotos en línea y sitios
web de medios socialescomo Facebook, Flickr yPicasa, la cantidad
de datos de imagen disponible es mayor que nunca y creciendo
más rápidamente cada día Facebook[2010]. Estosoloproporciona
una increíble base de datos de imágenes que se puede ampliar
hasta más de 880 millones de imágenes. Increíble y los modelos
probabilísticos estadística puede ser construida a partir de una
muestra tangrande comofuente. Por ejemplo, una base de datos
de todas las texturas encontradas en una gran colección de
imágenes pueden ser construidas y utilizadas por los
investigadores oartistas. La informaciónpuede ser increíblemente
útil para entender las relaciones enel mundo. Si una imagen vale
más que mil palabras, podríamos escribir una enciclopedia conlos
miles de millones de imágenes disponibles para nosotros
en1 internet.
Estas imágenes están mejoradas, sinembargo, por el hechode que
los usuarios estén suministrando etiquetas (de objetos, caras,
etc.), comentarios, títulos y descripciones de estos datos para
nosotros. Esta información nos suministra una cantidad increíble
de contexto sin precedentes para las imágenes. Problemas tales
como OCR que siguenengranmedida sinresolverse puede hacer
pasos agigantados coneste contextodisponible les guían. Stone et
al. describen en detalle cómo los sitios de redes sociales pueden
aprovechar las funciones de etiquetado facial para mejorar
significativamente el reconocimiento facial. Esta idea puede
aplicarse a una amplia gama de funciones de imagen que nos
permiten examinar y analizar las imágenes en una forma
revolucionaria.
1 Uno puede imaginar que aplicaciones como objeto la detección
podría proporcionar información que permitirá a los investigadores
Son estas las razones que motivan la necesidad de investigación
con aplicaciones que aprovechan la visión de grandes conjuntos
de imágenes. MapReduce proporciona un marco
extremadamente potente que funciona bien en aplicaciones de
uso intensivo de datos, donde el modelo de procesamiento de
datos es similar o de la misma. A menudo es el caso con las
operaciones basadas en imágenes que nos lleve a cabo
operaciones similares en todo un conjunto de entrada, haciendo
MapReduce ideal para aplicaciones basadas en i mágenes. Sin
embargo, muchos investigadores encuentran poco práctico para
poder reunir un conjunto significativo de imágenes relevantes
para sus estudios [Guo... 2005]. Además, muchos investigadores
no tienen maneras eficientes para almacenar y acceder a ese
conjunto de imágenes. Como resultado, poca investigación se ha
realizado en conjuntos de imágenes extremadamente grandes.
3 El marco HIPI
HIPI fue creada para brindar a los investigadoresyles presente un
Capaz herramienta que permitiría la investigación que involucra el
procesamientode imágenesyla visión se realiza muyfácilmente.
Con el conocimientoque HIPI sería utilizada para investigadoresy
como una herramienta educativa, hemos diseñado HIPI con los
siguientes objetivos en mente.
1. Proporcionar una biblioteca abierta, extensible para el
procesamiento de imágenes y aplicaciones de la visión por
computador enun marcoMapReduce
2. Almacenar imágenes de forma eficiente para su uso en
aplicaciones MapReduce
3. Para permitir el filtradode un simple conjunto de imágenes
4. Presentar a los usuarios una interfaz intuitiva para
operaciones basadas en imágenes y ocultar los detalles del
marco MapReduce
5. HIPI crearán aplicaciones, de manera que son altamente
paralelizado y equilibrados, de modo que los usuarios no
tienenque preocuparse por esos detalles
3.1 Almacenamiento de datos
Hadoop utiliza unsistema de archivos distribuido para almacenar
archivos envarias máquinas a lo largo del cluster. Hadooppermite
que los archivos se accede, sin embargo, sin un conocimiento de
donde está almacenado en el clúster, de forma que los usuarios
puedenhacer referenciaa archivos de la misma forma que en una
máquina local yHadoop presentará el archivocorrespondiente.
Al realizar trabajos de Hadoop MapReduce, intenta ejecutar el
mapa yreducir tareas a las máquinas fueron los datos que se están
procesandoestá situadode modoque los datos notienenque ser
copiados entre máquinas Apache [2010]. Como tal, MapReduce
tareas se ejecutan de manera más eficiente cuando la entrada es
un archivo grande en contraposicióna muchos archivos pequeños.
Los archivos grandes son significativamente más probabilidades
de ser almacenados en una máquina, mientras que muchos
archivos pequeños probablemente serán repartidos entre
reconocen las relaciones entreciertos objetos (por ejemplo los abejorros
son a menudo en fotografías de flores).
Hay muchos ejemplos deaplicaciones útiles,como estos.
diferentes máquinas, lo cual requiere una sobrecarga considerable
para copiar2 todos los datos a la máquina donde el mapa es tarea
[Ghemawat yGobioff... 2003]. Esta sobrecarga puede ralentizar el
tiempo de ejecución de diez a cien veces blanco [2010].
Sencillamente, el MapReduce marco funciona más eficientemente
cuandolos datos que se están procesando a los equipos localesse
lleva a caboel procesamiento.
Figura 2: Representación de la relación entre el índice y los
archivos de datos enun paquete de imagen HIPI
Con esto en mente, hemos creado un paquete de imagen HIPI el
tipo de datos que almacena muchas imágenesen un solo archivo
grande de modo que MapReduce trabajos se pueden realizar de
forma más eficiente. Una imagen HIPI Bundle consta de dos
archivos: un archivo de datos que contenga imágenes
concatenadas y un archivo de índice que contiene información
sobre los desplazamientos de las imágenesenel archivo de datos,
como se muestra en la figura 2. Esta configuración nos permite
acceder fácilmente a las imágenes de todo el paquete completo
sin tener que leer encada imagen.
Observamos varios beneficios del paquete en las pruebas de
imagenHIPI contra Hadoop Hadoopyarchivode secuencia(HAR)
formatos de archivo. Como Blanco et. al. nota, HARs sólosonútiles
para archivar archivos (como copias de seguridad), y de hecho
puede realizar más lentoque la lectura enlos archivos de la forma
estándar. Los archivos de secuencia funcionan mejor que las
aplicaciones estándar para archivos pequeños, pero se debe leer
en serie ytomar muchotiempopara generar el paquete deimagen
HIPI. tienen velocidades similares a los archivos de secuencia, no
tiene que ser leído en serie, y pueden ser generados con un
programa MapReduce [Blanco 2010; Conner 2009]. Además,
Imagen HIPI Bundles son más personalizable y son mudables, a
diferencia de la secuencia y HAR archivos. Por ejemplo, hemos
implementado la posibilidad de sólo leer el encabezado de un
archivo de imagen usando HIPI Paquetes de imagen, lo que sería
mucho más difícilcon otros tipos de archivo. Otras características
de la imagenHIPI Bundles estánresaltados enla secciónsiguiente
2 Son archivos pequeños que son considerablemente más pequeños
que el tamaño delbloque de archivos de la máquina en la que resideel
archivo
3.2 MapReduce basadas en imágenes
Estándar de HadoopMapReduce programas controlan la entrada
y salida de datos muyeficaz, perola lucha enla representación de
imágenes en un formato que sea útil para los investigadores. Los
métodos actuales implican una sobrecarga considerable para
obtener imagen de flotación estándar de representación. Por
ejemplo, para distribuir unconjuntode imágenesa unconjuntode
nodos del mapa requeriría un usuario para pasar las imágenes
como una cadena, entonces decodificar cada imagen en cada
mapa tarea antes de poder hacer el acceso de información de
píxeles. Esto no sólo es ineficiente, sino un inconveniente. Estas
tareas pueden crear dolores de cabeza a los usuarios y hacer el
códigounaspecto desordenado ydifícil de interpretar la intención
del código. Como tal, compartir el código es menos eficiente
porque el código es más difícil de leer y más difícil de depurar.
Nuestra biblioteca se centra en lo que conoce los tipos de datos
basada en imágenes directamente al usuario para facilitar su uso
en aplicaciones MapReduce.
Figura 3: El usuario sólo necesita especificar una imagen HIPI
paquete comouna entrada, yHIPI cuidará de paralelizaciónde la
tarea yel envío de imágenes de flotación para los mappers
Usando el tipo de datos del paquete de imagen HIPI como
entradas, hemos creado una especificación de entrada que va a
distribuir imágenes en la imagen HIPI Bundle en todos los nodos
del mapa. Distribuimos imágenes tales que intentamos maximizar
la localidadentre el mapa ymáquinas de la máquina donde reside
la imagen. Normalmente, un usuario tendría que crear
RecordReader InputFormat y clases que especifique cómo el
trabajo MapReduce distribuirá la entrada, y qué información se
envía a cada máquina. Esta es la tarea es importante ya menudo
se convierte en un gran punto de dolores de cabeza para los
usuarios. Hemos incluidoInputFormat yRecordReaders que cuide
de estopara el usuario. Nuestra especificación trabaja en imagen
HIPI paquetes para diferentes tipos de imágenes, tamaños y
cantidades variables de encabezado y la información Exif.
Manejamos todas estas diferentes permutaciones de imágenes
detrás de lasescenas para traer imágenesdirectamente al usuario
Entrada:
paquete
de
tarea Mapa
imágenes
codificada(jpeg,
png, etc.)
imágenes
codificada(jpeg,
png, etc.)
codificada
imágenes
jpeg,
png, etc.) (
fl
fl
i
Ave
na
Ave
na flimágene
s
Mapa
Mapa de
tareas tarea
realizada por HIPI
detrás de las escenas
como imágenes de flotación. No es necesario trabajar para ser
realizado por el usuario, e imágenes de flotación son llevados
directamente al mapa las tareas en una forma altamente
paralelizado.
Durante la distribuciónde los insumos, peroantes de que el mapa
las tareas comienzan introducimos una fase de descarte al
MapReduce canalización. La fase de descarte permite imágenes
que se filtran en función de las propiedades de una imagen. El
usuario especifica una clase de sacrificio que describe cómo las
imágenes serán filtrados (por ejemplo, imágenes de menos de 10
megapíxeles, imágenescon datos de encabezado de ubicaciónde
SIG). Sólo las imágenes que pasan a la fase de descarte se
distribuirán a las tareas del mapa, evitando la copia de datos
innecesarios. Este proceso es a menudo muy eficaz porque el
sacrificio ocurre a menudo basados en la información del
encabezado de la imagen, por lo que no es necesarioleer toda la
imagen.
Además, lasimágenes se distribuyen comoimágenes de flotación
de forma que los usuarios pueden tener acceso inmediato a los
valores de los píxeles para el procesamiento de imágenes y la
visión de las operaciones. Las imágenes se almacenan siempre
como tipos de imagen estándar (p. ej. JPEG, PNG, etc.) para un
almacenamiento eficiente, pero HIPI cuida de la codificación y
descodificación de imágenes para presentar al usuario con
flotaciónMapReduce imágenes dentro del ducto. Comoresultado,
los programas tales como calcular el valor medio de todos los
píxeles de un conjunto de imágenes puede ser escrita enel mero
hecho de líneas. Nos proporcionan operaciones tales como el
recorte de imagen de extracción de parches. A menudo es
conveniente para acceder a la cabecera de la imagen y la
informaciónexif sinnecesidadde informaciónde píxeles, de modo
que hemos abstraenesta informaciónde los datos de píxeles. Esto
es particularmente útil para la fase de descarte, y para
aplicaciones como im2Sig que necesitan tener acceso a los
metadatos. Presentar a los usuarios coninterfaces intuitivas para
tener acceso a los datos relevantes para el procesamiento de
imágenes y aplicaciones de visión permitirá para hacer más
eficiente la creaciónde aplicaciones MapReduce.3
4 Ejemplos
Describimos dos aplicaciones no triviales realizadas utilizando el
marco HIPI MapReduce para crear puestos de trabajo. Estas
aplicaciones son indicativos de los tipos de aplicaciones que
permite a los usuarios interesados HIPI con grandes operaciones
de imagen para hacer fácilmente. Estos ejemplos son difíciles e
ineficaz en las plataformas existentes, pero sencillo de
implementar con la API HIPI.
4.1 Principales componentes de imágenes naturales
Como un homenaje al Hancocket. al, calculamos los 15 primeros
componentes principales de imágenes naturales. Sin embargo,
decidimos enlugar de muestreoal azar un parche de 15 imágenes,
tomamos muestras de más de 1000 imágenes y 100 parches en
cada uno. El tamaño de nuestro conjunto de entrada era 10.000
veces más grande que el experimento original. Además, no nos
limitamos nuestras imágenes para imágenes naturales como el
experimento original (aunque podríamos hacerlo en la fase de
3 Http://graphics.cs.cmu.edu/projects/im2gps/
sacrificio). Como tal, los resultados difieren pero disponen de
características similares.
Podemos establecer paralelismos en el proceso de calcular la
matriz de covarianza paralas imágenesde acuerdo conla siguiente
fórmula, donde xies una muestra
Figura 4: Los 15 primeros componentes principales de una
muestra aleatoria de 15 imágenes naturales, observados por
Hancocket al. de izquierda a derecha, de arriba a abajo
Figura 5: Los 15 primeros componentes principales de 100.000
imágenes muestreadas aleatoriamente los parches, como
calculadocon HIPI de izquierda a derecha, de arriba a abajo
Parche yx¯ es el parche muestra significa
(1)
Ecuación-1 HIPI trajes perfectamente porque la suma es
groseramente paralelo. En otras palabras, podemos calcular
fácilmente cada término de la sumatoria de forma independiente
(suponiendo que ya tenemos la media), por lo tanto, podemos
calcular cada término en paralelo. Debemos primero ejecutar un
trabajo MapReduce para calcular la media de la muestra y, a
continuación, utilizarlo como x¯cálculo de covarianza para el
futuro. A continuación, ejecutamos un MapReduce trabajo que
calcula(xi-x¯)(xi-x¯)T para todos 100 parches de cada imagen.
Porque HIPI asigna una imagen por cada mapa, es tarea sencilla
muestra al azar una imagende 100 parches yrealizar este cálculo.
Cada mapa tarea será entonces emiten la suma de su parcial
covarianzas muestreados enla imagena la reductora, donde todas
las covarianzas parcial se sumarán a calcular la covarianza para
todo el conjunto de muestra.4
Después de determinar la covarianza para 100.000 tomaron
muestras al azar de parches, hemos utilizado el Matlab para
encontrar los 15 primeros componentes principales. Como se
esperaba, las imágenes no se correlacionan perfectamente
porque estamos usando muchodiferentes insumos para nuestros
experimentos, ynuestra pantalla de valores positivos ynegativos
también puedendiferir ligeramente. Sinembargo, algunos de los
principales componentes son los mismos (1, 7, 12), son
meramente conmutado (2 y3, 4 y 5), o mostrar cierta semejanza
con el experimento original (15). Realizar un análisis de
componentes principales sobre un enorme conjunto de datos
ilimitado, nos da unos conocimientos sin parangón sobre las
imágenes. Para tareascomoestas, HIPI sobresale.
4.2 La descarga de millones de imágenes
Paso 1: Especificar una lista de imágenes para
coleccionar. Suponemos que existe una lista bien formado que
contiene las URL de las imágenes para descargar. Esta lista debe
ser almacenada en un archivo de texto con exactamente una
imagen URL por línea. Esta lista puede ser generada por un lado,
de MySQL, o a partir de una consulta de búsqueda (por ejemplo
Google images, Flickr, etc.). Además de la lista de imágenes, el
usuariointroducirá el númerode nodos que se ejecute la tarea. De
acuerdo con esta entrada, se divide la imagen en el número
especificado de nodos para la máxima eficiencia y el paralelismo
al descargar las imágenes. Cada nodo en la tarea Mapa generará
una imagen HIPI Bundle que contiene todas las imágenes que ha
descargado, entonces el reductor se fusionan todos los paquetes
de imagenHIPI formando una granimagenHIPI Bundle.
Figura 6: Demostración de la paralelización en la aplicación
Downloader. La tarea de la descarga de la lista de direcciones URL
de las imágenes está dividida entre n Mapa de tareas. Cada
mapper crea una imagen HIPI Bundle, que se fusionaron en una
gran imagen HIPI Bundle enel reducir la fase
Paso 2: dividir las URLs en grupos y enviar a cada grupo un
mapa. Usandola lista de direcciones URL de imagenintroducida y
el número de nodos utilizados para descargar estas imágenes,
podemos distribuir equitativamente la tarea de descarga de
imágenes para especificar el número de nodos del mapa. Esto
permite que haya el máximo de paralelizaciónpara el procesode
descarga. Url de la imagen se ha distribuido a los distintos nodos
por igual, yel mapa de tareas comenzará a descargar cada imagen
4 Llamamos a esta suma parcial la covarianza parcial
en el conjunto de direcciones URL es responsable, como muestra
la figura 6.
Paso 3: Descargar imágenes desde Internet. Podemos entonces
establecer una conexióna la url se recuperan de la base de datos
y descargar la imagenmediante la clase URLConnectionjava. Una
vez conectado, podemos comprobar el tipo de archivo para
asegurarse de que es una imagen válida, y obtenga un
InputStream para la conexión. A partir de esto, podemos usar el
InputStream para añadir la imagena una imagen HIPI Bundle.
Paso 4:almacenar imágenes enuna imagenHIPI Bundle. Una vez
que el InputStream es recibida de la URLConnection, podemos
agregar la imagen a un paquete de imagen HIPI simplemente
pasando el InputStream al método addImage. Cada tarea mapa
generará una imagen HIPI Bundle y el reducir la fase combinará
todos los paquetesjuntos enun granpaquete.
Almacenandoimágenesde esta forma, usted podrá tomar ventaja
de nuestro marco HIPI MapReduce para las tareas que desea
realizar enla imagenfija enun punto posterior. Por ejemplo, para
comprobar los resultados del programa de descarga, hemos
ejecutado un programa muysimple MapReduce (7 líneas)que sea
capaz de tomar la imagenHIPI Bundle yescribir las imágenes para
archivos JPEG individuales sobre los HDFS sinesfuerzo.
5 Conclusión
Este documento ha descrito nuestra biblioteca para el
procesamientode imágenesyaplicacionesde visión enun marco
Hadoop MapReduce - HIPI (Interfaz de procesamiento de
imágenes). Esta biblioteca fue cuidadosamente diseñado para
ocultar los detalles complejos de la potente Hadoop MapReduce
marco y sacar a la luz lo que más preocupan a los usuarios: las
imágenes. Nuestro sistema ha sido creado con la intención de
operar en grandes conjuntos de imágenes. Proporcionamos un
formato para almacenar imágenes para acceder eficientemente
dentro del ducto y MapReduce métodos sencillos para crear
dichos archivos. Proporcionando un sacrificio etapa antes de la
fase de mapeo, nos dan al usuario una forma sencilla para filtrar
conjuntos de imágenes y controlar los tipos de imágenes que se
utilizanensus MapReduce tareas. Por último, proporcionamos los
codificadores ydecodificadoresde imagenque correr detrás de las
escenasytrabajar para presentar al usuarioconflotacióntipos de
imagen que son más útiles para el procesamiento de imágenes y
aplicaciones de visión.
A través de estas características, nuestro interfaz trae consigoun
nuevo nivel de simplicidad para la creación de aplicaciones de
visión a gran escala con el objetivo de empoderar a los
investigadores yprofesores con una herramienta eficiente para la
creación de aplicaciones MapReduce centrado alrededor de las
imágenes. Este papel describe dos ejemplos de aplicaciones
construidas con HIPI que demuestran la potencia que presenta a
los usuarios. Esperamos que para conseguir que los recursos y el
poder de MapReduce a la visión que tenemos de la comunidad
mejorará la capacidad para crear nuevos proyectos de visión que
permitirá a los usuarios a empujar el campo de visión por
ordenador.
Lista de
dire
ccio
Mapa
1
Mapa
denodo
nodo del
mapa ...n
Bundle 1
HIPI HIPI
IMAGEN
IMAGEN
Bundle... HIPI
HIPI Paquete n
Reducir elpaquete
de
6 Agradecimientos
Nos gustaría dar lasgracias enparticular al candidatoa doctorado
sean Arietta por su orientación y tutoría a lo largo de este
proyecto. Su liderazgo y visión han sido excelentes modelos y
puntos de aprendizaje para nosotros a lo largo de este proceso.
Además, debemos dar un gran agradecimiento a l Profesor
Ayudante Jason Lawrence por su apoyo a lo largo de los últimos
años y por habernos acogido en UVa de gráficos del grupo como
ojos brillantesestudiantes.
Referencias
Unarepresas, A., JACOBS, D., D, J. Olson, tico, M., PULLI, K.
TALVALA, E., unaJDIN, B., VAQUERO, D., LENSCH, H., y
HOROWITZ, M. 2010. La frankencamera: una plataforma
experimental para la fotografía computacional. ACMSIGGRAPH
2010 papers, 1-12.
UnPache, 2010. Hadoop Mapreduce Marco
Http://hadoop.apache.org/mapreduce/..
CONNER, J. 2009. Personalización de formatos de archivo de
entrada para el procesamiento de imágenes en
hadoop. Universidad del Estado de Arizona. En línea en:
Http://hpc. asu. edu/node/97.
DEAN, J., y GHEMAWAT, S. 2008. Mapreduce: procesamientode datos
simplificada engrandes grupos. Comunicaciones del ACM51, 1,
107-113.
FACEBOOK, 2010. FacebookImagen Almacenamiento
Http://blog.facebook.com/blog.php?post=206178097130..
GHEMAWAT, S., y GOBIOFF. . . , H. 2003. El sistema de archivos de
google. ACMSIGOPSoperativo ... (ENE).
GUO. . . , G. 2005. Aprender de ejemplos en el caso de muestras
pequeñas: reconocimiento de la expresión
facial. Sistemas(ENE).
ANCOCK H, P., BADDELEY, R., y Smith, L. 1992. Los principales
componentes de imágenes naturales. Red: cálculo en sistemas
neuronales 3, 1, 61-70.
LI, Y., y CRANDALL. . . , D. 2009. Clasificación histórica en grandes
coleccionesde imágenes. Visión por Computador (ENE).
LIU, K., LI, S., TANG, L., y WANG. . . , L. 2009. Rápidoseguimientofacial
paralelo utilizando el algoritmo de filtro de
partículas. Multimedia yExpo (ENE).
STONO, Z., Y ZICKLER. . . , T. 2010. Hacia el reconocimiento de cara a
gran escala utilizando un contexto de red social. Actas del
IEEE (ENE).
WHITE, B., YEH, T., la, J., y DAVIS, L. 2010. Escala web de Visión por
computador usando mapreduce para minería de datos
multimedia. Actas del Décimo Seminario internacional sobre
minería de datos multimedia, 1-10.
WHITE, 2010. El PequeñaArchivos Problema
Http://www.cloudera.com/blog/2009/02/the-small-
filesproblem/..

Más contenido relacionado

Destacado

Capacitaciones, talleres y formaciones dictadas.
Capacitaciones, talleres y formaciones dictadas.Capacitaciones, talleres y formaciones dictadas.
Capacitaciones, talleres y formaciones dictadas.Soledad Jouliá
 
Lorena Jimenez
Lorena JimenezLorena Jimenez
Lorena Jimenezacrosinus
 
Principio 90 10 & 43[1]
Principio 90 10 & 43[1]Principio 90 10 & 43[1]
Principio 90 10 & 43[1]gloriapss
 
Practica Proyecto Pedagogico I
Practica Proyecto Pedagogico IPractica Proyecto Pedagogico I
Practica Proyecto Pedagogico Iguest8ecec5
 
Postres Septiembre
Postres SeptiembrePostres Septiembre
Postres Septiembrebeaglechef
 
Veni, vidi, wiki: wikisanidad vincit
Veni, vidi, wiki: wikisanidad vincitVeni, vidi, wiki: wikisanidad vincit
Veni, vidi, wiki: wikisanidad vincitMònica Moro
 
OríGenes De La Prensa
OríGenes De La PrensaOríGenes De La Prensa
OríGenes De La Prensaytoscontentos
 
Coca Cola Y La Crisis EconóMica
Coca Cola Y La Crisis EconóMicaCoca Cola Y La Crisis EconóMica
Coca Cola Y La Crisis EconóMicaLina Sandoval
 
Presentation BigTrust at Malaga Valley by Carlos Moreira
Presentation BigTrust at Malaga Valley by Carlos MoreiraPresentation BigTrust at Malaga Valley by Carlos Moreira
Presentation BigTrust at Malaga Valley by Carlos MoreiraCreus Moreira Carlos
 
La comunidad opina: #AppSalud ¿Fiables?
La comunidad opina: #AppSalud ¿Fiables?La comunidad opina: #AppSalud ¿Fiables?
La comunidad opina: #AppSalud ¿Fiables?Mònica Moro
 
Consejos para ser gracioso y solución de conflictos con humor
Consejos para ser gracioso y solución de conflictos con humor Consejos para ser gracioso y solución de conflictos con humor
Consejos para ser gracioso y solución de conflictos con humor Dary Efraín Baas García
 
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?Mònica Moro
 

Destacado (20)

Capacitaciones, talleres y formaciones dictadas.
Capacitaciones, talleres y formaciones dictadas.Capacitaciones, talleres y formaciones dictadas.
Capacitaciones, talleres y formaciones dictadas.
 
WISekey Hub in Valencia
WISekey Hub in ValenciaWISekey Hub in Valencia
WISekey Hub in Valencia
 
Lorena Jimenez
Lorena JimenezLorena Jimenez
Lorena Jimenez
 
Adhesivo§
Adhesivo§Adhesivo§
Adhesivo§
 
Principio 90 10 & 43[1]
Principio 90 10 & 43[1]Principio 90 10 & 43[1]
Principio 90 10 & 43[1]
 
Practica Proyecto Pedagogico I
Practica Proyecto Pedagogico IPractica Proyecto Pedagogico I
Practica Proyecto Pedagogico I
 
Postres Septiembre
Postres SeptiembrePostres Septiembre
Postres Septiembre
 
Veni, vidi, wiki: wikisanidad vincit
Veni, vidi, wiki: wikisanidad vincitVeni, vidi, wiki: wikisanidad vincit
Veni, vidi, wiki: wikisanidad vincit
 
Administr..
Administr..Administr..
Administr..
 
A Rosa Azul
A Rosa AzulA Rosa Azul
A Rosa Azul
 
Bomberos 4 AñOs
Bomberos 4 AñOsBomberos 4 AñOs
Bomberos 4 AñOs
 
OríGenes De La Prensa
OríGenes De La PrensaOríGenes De La Prensa
OríGenes De La Prensa
 
La Segunda Guerra Mundial
La Segunda Guerra MundialLa Segunda Guerra Mundial
La Segunda Guerra Mundial
 
Coca Cola Y La Crisis EconóMica
Coca Cola Y La Crisis EconóMicaCoca Cola Y La Crisis EconóMica
Coca Cola Y La Crisis EconóMica
 
Presentation BigTrust at Malaga Valley by Carlos Moreira
Presentation BigTrust at Malaga Valley by Carlos MoreiraPresentation BigTrust at Malaga Valley by Carlos Moreira
Presentation BigTrust at Malaga Valley by Carlos Moreira
 
Hierro
HierroHierro
Hierro
 
La comunidad opina: #AppSalud ¿Fiables?
La comunidad opina: #AppSalud ¿Fiables?La comunidad opina: #AppSalud ¿Fiables?
La comunidad opina: #AppSalud ¿Fiables?
 
Vidrio
VidrioVidrio
Vidrio
 
Consejos para ser gracioso y solución de conflictos con humor
Consejos para ser gracioso y solución de conflictos con humor Consejos para ser gracioso y solución de conflictos con humor
Consejos para ser gracioso y solución de conflictos con humor
 
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?
Conversación en medios sociales ¿Cómo participa un laboratorio farmacéutico?
 

Similar a L6 undergrad thesis(1)

Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 
Universidad de la integración de las américas
Universidad de la integración de las américasUniversidad de la integración de las américas
Universidad de la integración de las américasisa_perez22
 
Introduccion a la Tics
Introduccion a la TicsIntroduccion a la Tics
Introduccion a la Ticsisa_perez22
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Información estadística e información geográfica en las nuevas tecnologías de...
Información estadística e información geográfica en las nuevas tecnologías de...Información estadística e información geográfica en las nuevas tecnologías de...
Información estadística e información geográfica en las nuevas tecnologías de...andalucialab
 
Smart diary - Agenda de Actividades en Java
Smart diary - Agenda de Actividades en JavaSmart diary - Agenda de Actividades en Java
Smart diary - Agenda de Actividades en JavaMateo Quizhpi
 
66826033 diseno-de-aplicaciones-gene xus-apunte-1
66826033 diseno-de-aplicaciones-gene xus-apunte-166826033 diseno-de-aplicaciones-gene xus-apunte-1
66826033 diseno-de-aplicaciones-gene xus-apunte-1Raroldo Lira
 
William cloud computing
William cloud computingWilliam cloud computing
William cloud computingwilliPerez12
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Proyecto Integrador de Sistemas Gestores de Bases de Datos
Proyecto Integrador de Sistemas Gestores de Bases de DatosProyecto Integrador de Sistemas Gestores de Bases de Datos
Proyecto Integrador de Sistemas Gestores de Bases de DatosConfesorAD
 
Decroly en el congreso Internet en el Aula
Decroly en el congreso Internet en el AulaDecroly en el congreso Internet en el Aula
Decroly en el congreso Internet en el AulaConfesorAD
 
Una aplicación innovadora como puente para la recuperación de información en ...
Una aplicación innovadora como puente para la recuperación de información en ...Una aplicación innovadora como puente para la recuperación de información en ...
Una aplicación innovadora como puente para la recuperación de información en ...Congreso Internet en el Aula
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes socialesCharlieDS
 
GeoCass: Geoposicionamiento Inteligente con Apache Cassandra
GeoCass: Geoposicionamiento Inteligente con Apache CassandraGeoCass: Geoposicionamiento Inteligente con Apache Cassandra
GeoCass: Geoposicionamiento Inteligente con Apache CassandraLuis Felipe Tabares Pérez
 

Similar a L6 undergrad thesis(1) (20)

Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
BigData
BigDataBigData
BigData
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Universidad de la integración de las américas
Universidad de la integración de las américasUniversidad de la integración de las américas
Universidad de la integración de las américas
 
Introduccion a la Tics
Introduccion a la TicsIntroduccion a la Tics
Introduccion a la Tics
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Información estadística e información geográfica en las nuevas tecnologías de...
Información estadística e información geográfica en las nuevas tecnologías de...Información estadística e información geográfica en las nuevas tecnologías de...
Información estadística e información geográfica en las nuevas tecnologías de...
 
Ensayo cientifico
Ensayo cientificoEnsayo cientifico
Ensayo cientifico
 
Smart diary - Agenda de Actividades en Java
Smart diary - Agenda de Actividades en JavaSmart diary - Agenda de Actividades en Java
Smart diary - Agenda de Actividades en Java
 
66826033 diseno-de-aplicaciones-gene xus-apunte-1
66826033 diseno-de-aplicaciones-gene xus-apunte-166826033 diseno-de-aplicaciones-gene xus-apunte-1
66826033 diseno-de-aplicaciones-gene xus-apunte-1
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
William cloud computing
William cloud computingWilliam cloud computing
William cloud computing
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Proyecto Integrador de Sistemas Gestores de Bases de Datos
Proyecto Integrador de Sistemas Gestores de Bases de DatosProyecto Integrador de Sistemas Gestores de Bases de Datos
Proyecto Integrador de Sistemas Gestores de Bases de Datos
 
Decroly en el congreso Internet en el Aula
Decroly en el congreso Internet en el AulaDecroly en el congreso Internet en el Aula
Decroly en el congreso Internet en el Aula
 
Una aplicación innovadora como puente para la recuperación de información en ...
Una aplicación innovadora como puente para la recuperación de información en ...Una aplicación innovadora como puente para la recuperación de información en ...
Una aplicación innovadora como puente para la recuperación de información en ...
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes sociales
 
GeoCass: Geoposicionamiento Inteligente con Apache Cassandra
GeoCass: Geoposicionamiento Inteligente con Apache CassandraGeoCass: Geoposicionamiento Inteligente con Apache Cassandra
GeoCass: Geoposicionamiento Inteligente con Apache Cassandra
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 

Último

Citroen C5 Aircross manual de utilizacion.pdf
Citroen C5 Aircross manual de utilizacion.pdfCitroen C5 Aircross manual de utilizacion.pdf
Citroen C5 Aircross manual de utilizacion.pdfmanonon
 
NX-400-FALCON-COSTARICA-Manual-Usuario.pdf
NX-400-FALCON-COSTARICA-Manual-Usuario.pdfNX-400-FALCON-COSTARICA-Manual-Usuario.pdf
NX-400-FALCON-COSTARICA-Manual-Usuario.pdfDanielMangoldNieves
 
Refrigeración Automotriz(aire acondicionado)..pptx
Refrigeración Automotriz(aire acondicionado)..pptxRefrigeración Automotriz(aire acondicionado)..pptx
Refrigeración Automotriz(aire acondicionado)..pptxretrixx40
 
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptx
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptxVALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptx
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptxMartinMezarina1
 
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcx
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcxSISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcx
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcxdenilsonaldahir2
 
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOS
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOSSESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOS
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOSAnaRuiz123884
 
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptx
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptxhttps://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptx
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptxMartinMezarina1
 
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdf
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdfDibujo técnico - Teoria de Tolerancias y Ajustes.pdf
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdfHaroldJaimeSanchezMi
 
3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso
3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso
3.BATERIA y sus princiaples componentes internos que llleva para su correcto usofranklintrinidad00
 
capacitacion-para-limpieza-en-laboratorios-1.ppt
capacitacion-para-limpieza-en-laboratorios-1.pptcapacitacion-para-limpieza-en-laboratorios-1.ppt
capacitacion-para-limpieza-en-laboratorios-1.pptMonicaEsterMosqueraM
 
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptx
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptxGESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptx
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptxFernandoEstradaGimen
 

Último (11)

Citroen C5 Aircross manual de utilizacion.pdf
Citroen C5 Aircross manual de utilizacion.pdfCitroen C5 Aircross manual de utilizacion.pdf
Citroen C5 Aircross manual de utilizacion.pdf
 
NX-400-FALCON-COSTARICA-Manual-Usuario.pdf
NX-400-FALCON-COSTARICA-Manual-Usuario.pdfNX-400-FALCON-COSTARICA-Manual-Usuario.pdf
NX-400-FALCON-COSTARICA-Manual-Usuario.pdf
 
Refrigeración Automotriz(aire acondicionado)..pptx
Refrigeración Automotriz(aire acondicionado)..pptxRefrigeración Automotriz(aire acondicionado)..pptx
Refrigeración Automotriz(aire acondicionado)..pptx
 
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptx
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptxVALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptx
VALORIZACION DE MINERALES.pptx VALORIZACION DE MINERALES.pptx
 
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcx
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcxSISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcx
SISTEMA TBI CHRYSLER UNIDAD 2.pptxxxxxcx
 
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOS
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOSSESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOS
SESION DE APRENDIZAJE LOS SENTIDOS Y SUS CUIDADOS
 
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptx
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptxhttps://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptx
https://es.slideshare.net/karolpr/normasdeauditoriagubernamentalpptx
 
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdf
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdfDibujo técnico - Teoria de Tolerancias y Ajustes.pdf
Dibujo técnico - Teoria de Tolerancias y Ajustes.pdf
 
3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso
3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso
3.BATERIA y sus princiaples componentes internos que llleva para su correcto uso
 
capacitacion-para-limpieza-en-laboratorios-1.ppt
capacitacion-para-limpieza-en-laboratorios-1.pptcapacitacion-para-limpieza-en-laboratorios-1.ppt
capacitacion-para-limpieza-en-laboratorios-1.ppt
 
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptx
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptxGESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptx
GESTIÓN POR RESULTADOS EN EL SECTOR PÚBLICO.pptx
 

L6 undergrad thesis(1)

  • 1. HIPI: Hadoop Interfaz para procesamiento de imágenes Image-based MapReduce tareas Chris Sweeney Liu Liu Seán Arietta Jason Lawrence Universidad de Virginia Figura 1:Un típicoHadoop MapReduce canalizaciónmediante nuestra interfaz de procesamientode imagencon n imágenes, puedo asignar nodos ynodos j reducir Resumen La cantidadde imágenesque se suben a Internet está aumentando rápidamente, con usuarios de Facebook cargar más de 2,5 mil millones de fotos nuevascada mes Facebook [2010], sinembargo, las aplicaciones que hacen uso de estos datos carecen gravemente. Aplicaciones de la visión por computador actual utilizar un pequeño número de imágenes de entrada debido a la dificultad radica en la adquisición de los recursos informáticos y las opciones de almacenamiento para grandes cantidades de datos [Guo... 2005;Blancoet al. 2010]. Como tal, el desarrollode aplicaciones de visión que utilizan un conjunto grande de imágenes ha sido limitado [Ghemawat y Gobioff... 2003]. El Hadoop Mapreduce plataforma proporciona un sistema para grandes y computacionalmente intensiva del procesamiento distribuido (Dean, 2004), aunque el uso de sistema Hadoops está severamente limitada por las complejidades técnicas de desarrollo de aplicaciones útiles [Ghemawat y Gobioff... 2003; Blanco et al. 2010]. A abordar de inmediato este, proponemos una fuente abierta de Hadoop Interfaz de procesamiento de imágenes (HIPI) que pretende crear una interfaz para visión por computador con tecnología MapReduce. HIPI abstrae los detalles altamente técnicos de Hadoop y del sistema es lo suficientemente flexible como para aplicar muchas de las técnicas de visión por computador en la actual literatura. Este documento describe el marco HIPI, ydescribe dos ejemplos de aplicaciones que han sido implementadas con HIPI. El objetivo de HIPI es crear una herramienta que hará eldesarrollo de procesamientode imágenes a gran escala yproyectos de visión extremadamente accesible con la esperanza de que esto facultará a investigadores yestudiantes para crear aplicaciones con facilidad. Keywords:mapreduce, visión por computador, procesamiento de imágenes 1 Introducción Muchos de procesamiento de imagen y visión por computador algoritmos son aplicables a tareas de datos a gran escala. A menudo es conveniente ejecutar estos algoritmos en grandes conjuntos de datos (p.ej. Mayores de 1 TB) que actualmente están limitadaspor la potencia de cálculode unordenador [Guo... 2005]. Estas tareas se realizan normalmente en un sistema distribuido, dividiendola tarea en uno o más de lassiguientes características: parámetros delalgoritmo, imágeneso píxeles[Blancoet al. 2010]. Realización de tareas a través de un parámetro concreto es increíblemente paralelo y a menudo puede ser perfectamente paralelos. Detección facial yclasificaciónhistórica sonejemplos de este tipo de algoritmos [Li y Crandall... 2009; Liu et al. 2009]. La capacidad de establecer paralelismos entre tales tareas permite escalable, eficiente ejecuciónde aplicaciones intensivas en uso de recursos. El MapReduce Framework proporciona una plataforma para tales aplicaciones. Visión básica de las aplicaciones que utilizanMapReduce Hadoops framework requieren una curva de aprendizaje asombrosa y abrumadora complejidad [Blanco et al. 2010]. La sobrecarga necesaria para implementar estas aplicaciones lesiona gravemente el progresode los investigadores [Blanco et al. 2010; Li y Crandall... 2009]. HIPI elimina los detalles altamente técnicos de sistema Hadoops y proporciona a los usuarios familiarizados con la sensaciónde una biblioteca de imágenesconel accesoa los recursos avanzados de un sistema distribuido[DeanyGhemawat 2008; Apache 2010]. Nuestra plataforma se centra en dar a los usuarios unaccesosinprecedentes a estructurasde datos basadas en imágenesconunoleoducto que es intuitivo para el MapReduce system, que permite el uso fácil y flexible para aplicaciones de visión. Debido a la similitud de objetivos en nuestros marcos, tomamos particular inspiración del proyecto Frankencamera como un modelo para el diseño de una API abierta para proporcionar acceso a recursos informáticos. Hemos diseñadoHIPI conlos objetivos de facilitar una plataforma suficientemente específicas para contener un marco pertinente aplicable para todo el procesamiento de imágenes y aplicaciones de la visión por computador, pero lo suficientemente flexible como para soportar los cambios continuos y mejoras dentro de Hadoops Mapreduce sistema. Esperamos promover HIPI vision research por estas razones. HIPI es en gran parte un proyecto de diseño de software, impulsada por los objetivos primordiales de Imagen Hipi unir imágenes 1...k ... imágenes n-k....n Cull Mapa 1 ... Mapa i Shuffle reducen 1 ... Reducir j resultad o
  • 2. abstraer la funcionalidad de Hadoop en una imagen centrada en el sistema yproporcionar unsistema extensible que proporcionará a los investigadores una herramienta para utilizar eficazmente Hadoops Mapreduce sistema para el procesamiento de imágenes y visión por computador. Creemos que esta facilidad de uso y control de usuario hará que el proceso para la creación de experimentos de visión a gran escala y aplicaciones. Como resultado, el HIPI sirve como una excelente herramienta para investigadores en visión por computador, porque permite el desarrollo en gran escala de las aplicaciones de la visión por computador para ser más accesible que nunca. A nuestro saber, somos el primer grupo para proporcionar una interfazabiertapara el procesamiento de imágenes y visión por computador para aplicaciones Mapreduce Hadoops plataforma [White et al. 2010]. En la siguiente sección se describirá la labor anterior enesta área. En particular, comentamos la motivación para crear unmarcoque permita imagebased a gran escala de aplicaciones de visión. A continuación, describimos la descripción de la biblioteca HIPI incluyendo el sacrificio, el mapa, y reducir las etapas. Además, describir nuestro enfoque para la distribución de tareas para el MapReduce canalización. Por último, nos muestran las capacidades de HIPI con dos ejemplos de aplicaciones de visión utilizandoHIPI. 2 Trabajo previo Con la proliferación de almacenamiento de fotos en línea y sitios web de medios socialescomo Facebook, Flickr yPicasa, la cantidad de datos de imagen disponible es mayor que nunca y creciendo más rápidamente cada día Facebook[2010]. Estosoloproporciona una increíble base de datos de imágenes que se puede ampliar hasta más de 880 millones de imágenes. Increíble y los modelos probabilísticos estadística puede ser construida a partir de una muestra tangrande comofuente. Por ejemplo, una base de datos de todas las texturas encontradas en una gran colección de imágenes pueden ser construidas y utilizadas por los investigadores oartistas. La informaciónpuede ser increíblemente útil para entender las relaciones enel mundo. Si una imagen vale más que mil palabras, podríamos escribir una enciclopedia conlos miles de millones de imágenes disponibles para nosotros en1 internet. Estas imágenes están mejoradas, sinembargo, por el hechode que los usuarios estén suministrando etiquetas (de objetos, caras, etc.), comentarios, títulos y descripciones de estos datos para nosotros. Esta información nos suministra una cantidad increíble de contexto sin precedentes para las imágenes. Problemas tales como OCR que siguenengranmedida sinresolverse puede hacer pasos agigantados coneste contextodisponible les guían. Stone et al. describen en detalle cómo los sitios de redes sociales pueden aprovechar las funciones de etiquetado facial para mejorar significativamente el reconocimiento facial. Esta idea puede aplicarse a una amplia gama de funciones de imagen que nos permiten examinar y analizar las imágenes en una forma revolucionaria. 1 Uno puede imaginar que aplicaciones como objeto la detección podría proporcionar información que permitirá a los investigadores Son estas las razones que motivan la necesidad de investigación con aplicaciones que aprovechan la visión de grandes conjuntos de imágenes. MapReduce proporciona un marco extremadamente potente que funciona bien en aplicaciones de uso intensivo de datos, donde el modelo de procesamiento de datos es similar o de la misma. A menudo es el caso con las operaciones basadas en imágenes que nos lleve a cabo operaciones similares en todo un conjunto de entrada, haciendo MapReduce ideal para aplicaciones basadas en i mágenes. Sin embargo, muchos investigadores encuentran poco práctico para poder reunir un conjunto significativo de imágenes relevantes para sus estudios [Guo... 2005]. Además, muchos investigadores no tienen maneras eficientes para almacenar y acceder a ese conjunto de imágenes. Como resultado, poca investigación se ha realizado en conjuntos de imágenes extremadamente grandes. 3 El marco HIPI HIPI fue creada para brindar a los investigadoresyles presente un Capaz herramienta que permitiría la investigación que involucra el procesamientode imágenesyla visión se realiza muyfácilmente. Con el conocimientoque HIPI sería utilizada para investigadoresy como una herramienta educativa, hemos diseñado HIPI con los siguientes objetivos en mente. 1. Proporcionar una biblioteca abierta, extensible para el procesamiento de imágenes y aplicaciones de la visión por computador enun marcoMapReduce 2. Almacenar imágenes de forma eficiente para su uso en aplicaciones MapReduce 3. Para permitir el filtradode un simple conjunto de imágenes 4. Presentar a los usuarios una interfaz intuitiva para operaciones basadas en imágenes y ocultar los detalles del marco MapReduce 5. HIPI crearán aplicaciones, de manera que son altamente paralelizado y equilibrados, de modo que los usuarios no tienenque preocuparse por esos detalles 3.1 Almacenamiento de datos Hadoop utiliza unsistema de archivos distribuido para almacenar archivos envarias máquinas a lo largo del cluster. Hadooppermite que los archivos se accede, sin embargo, sin un conocimiento de donde está almacenado en el clúster, de forma que los usuarios puedenhacer referenciaa archivos de la misma forma que en una máquina local yHadoop presentará el archivocorrespondiente. Al realizar trabajos de Hadoop MapReduce, intenta ejecutar el mapa yreducir tareas a las máquinas fueron los datos que se están procesandoestá situadode modoque los datos notienenque ser copiados entre máquinas Apache [2010]. Como tal, MapReduce tareas se ejecutan de manera más eficiente cuando la entrada es un archivo grande en contraposicióna muchos archivos pequeños. Los archivos grandes son significativamente más probabilidades de ser almacenados en una máquina, mientras que muchos archivos pequeños probablemente serán repartidos entre reconocen las relaciones entreciertos objetos (por ejemplo los abejorros son a menudo en fotografías de flores). Hay muchos ejemplos deaplicaciones útiles,como estos.
  • 3. diferentes máquinas, lo cual requiere una sobrecarga considerable para copiar2 todos los datos a la máquina donde el mapa es tarea [Ghemawat yGobioff... 2003]. Esta sobrecarga puede ralentizar el tiempo de ejecución de diez a cien veces blanco [2010]. Sencillamente, el MapReduce marco funciona más eficientemente cuandolos datos que se están procesando a los equipos localesse lleva a caboel procesamiento. Figura 2: Representación de la relación entre el índice y los archivos de datos enun paquete de imagen HIPI Con esto en mente, hemos creado un paquete de imagen HIPI el tipo de datos que almacena muchas imágenesen un solo archivo grande de modo que MapReduce trabajos se pueden realizar de forma más eficiente. Una imagen HIPI Bundle consta de dos archivos: un archivo de datos que contenga imágenes concatenadas y un archivo de índice que contiene información sobre los desplazamientos de las imágenesenel archivo de datos, como se muestra en la figura 2. Esta configuración nos permite acceder fácilmente a las imágenes de todo el paquete completo sin tener que leer encada imagen. Observamos varios beneficios del paquete en las pruebas de imagenHIPI contra Hadoop Hadoopyarchivode secuencia(HAR) formatos de archivo. Como Blanco et. al. nota, HARs sólosonútiles para archivar archivos (como copias de seguridad), y de hecho puede realizar más lentoque la lectura enlos archivos de la forma estándar. Los archivos de secuencia funcionan mejor que las aplicaciones estándar para archivos pequeños, pero se debe leer en serie ytomar muchotiempopara generar el paquete deimagen HIPI. tienen velocidades similares a los archivos de secuencia, no tiene que ser leído en serie, y pueden ser generados con un programa MapReduce [Blanco 2010; Conner 2009]. Además, Imagen HIPI Bundles son más personalizable y son mudables, a diferencia de la secuencia y HAR archivos. Por ejemplo, hemos implementado la posibilidad de sólo leer el encabezado de un archivo de imagen usando HIPI Paquetes de imagen, lo que sería mucho más difícilcon otros tipos de archivo. Otras características de la imagenHIPI Bundles estánresaltados enla secciónsiguiente 2 Son archivos pequeños que son considerablemente más pequeños que el tamaño delbloque de archivos de la máquina en la que resideel archivo 3.2 MapReduce basadas en imágenes Estándar de HadoopMapReduce programas controlan la entrada y salida de datos muyeficaz, perola lucha enla representación de imágenes en un formato que sea útil para los investigadores. Los métodos actuales implican una sobrecarga considerable para obtener imagen de flotación estándar de representación. Por ejemplo, para distribuir unconjuntode imágenesa unconjuntode nodos del mapa requeriría un usuario para pasar las imágenes como una cadena, entonces decodificar cada imagen en cada mapa tarea antes de poder hacer el acceso de información de píxeles. Esto no sólo es ineficiente, sino un inconveniente. Estas tareas pueden crear dolores de cabeza a los usuarios y hacer el códigounaspecto desordenado ydifícil de interpretar la intención del código. Como tal, compartir el código es menos eficiente porque el código es más difícil de leer y más difícil de depurar. Nuestra biblioteca se centra en lo que conoce los tipos de datos basada en imágenes directamente al usuario para facilitar su uso en aplicaciones MapReduce. Figura 3: El usuario sólo necesita especificar una imagen HIPI paquete comouna entrada, yHIPI cuidará de paralelizaciónde la tarea yel envío de imágenes de flotación para los mappers Usando el tipo de datos del paquete de imagen HIPI como entradas, hemos creado una especificación de entrada que va a distribuir imágenes en la imagen HIPI Bundle en todos los nodos del mapa. Distribuimos imágenes tales que intentamos maximizar la localidadentre el mapa ymáquinas de la máquina donde reside la imagen. Normalmente, un usuario tendría que crear RecordReader InputFormat y clases que especifique cómo el trabajo MapReduce distribuirá la entrada, y qué información se envía a cada máquina. Esta es la tarea es importante ya menudo se convierte en un gran punto de dolores de cabeza para los usuarios. Hemos incluidoInputFormat yRecordReaders que cuide de estopara el usuario. Nuestra especificación trabaja en imagen HIPI paquetes para diferentes tipos de imágenes, tamaños y cantidades variables de encabezado y la información Exif. Manejamos todas estas diferentes permutaciones de imágenes detrás de lasescenas para traer imágenesdirectamente al usuario Entrada: paquete de tarea Mapa imágenes codificada(jpeg, png, etc.) imágenes codificada(jpeg, png, etc.) codificada imágenes jpeg, png, etc.) ( fl fl i Ave na Ave na flimágene s Mapa Mapa de tareas tarea realizada por HIPI detrás de las escenas
  • 4. como imágenes de flotación. No es necesario trabajar para ser realizado por el usuario, e imágenes de flotación son llevados directamente al mapa las tareas en una forma altamente paralelizado. Durante la distribuciónde los insumos, peroantes de que el mapa las tareas comienzan introducimos una fase de descarte al MapReduce canalización. La fase de descarte permite imágenes que se filtran en función de las propiedades de una imagen. El usuario especifica una clase de sacrificio que describe cómo las imágenes serán filtrados (por ejemplo, imágenes de menos de 10 megapíxeles, imágenescon datos de encabezado de ubicaciónde SIG). Sólo las imágenes que pasan a la fase de descarte se distribuirán a las tareas del mapa, evitando la copia de datos innecesarios. Este proceso es a menudo muy eficaz porque el sacrificio ocurre a menudo basados en la información del encabezado de la imagen, por lo que no es necesarioleer toda la imagen. Además, lasimágenes se distribuyen comoimágenes de flotación de forma que los usuarios pueden tener acceso inmediato a los valores de los píxeles para el procesamiento de imágenes y la visión de las operaciones. Las imágenes se almacenan siempre como tipos de imagen estándar (p. ej. JPEG, PNG, etc.) para un almacenamiento eficiente, pero HIPI cuida de la codificación y descodificación de imágenes para presentar al usuario con flotaciónMapReduce imágenes dentro del ducto. Comoresultado, los programas tales como calcular el valor medio de todos los píxeles de un conjunto de imágenes puede ser escrita enel mero hecho de líneas. Nos proporcionan operaciones tales como el recorte de imagen de extracción de parches. A menudo es conveniente para acceder a la cabecera de la imagen y la informaciónexif sinnecesidadde informaciónde píxeles, de modo que hemos abstraenesta informaciónde los datos de píxeles. Esto es particularmente útil para la fase de descarte, y para aplicaciones como im2Sig que necesitan tener acceso a los metadatos. Presentar a los usuarios coninterfaces intuitivas para tener acceso a los datos relevantes para el procesamiento de imágenes y aplicaciones de visión permitirá para hacer más eficiente la creaciónde aplicaciones MapReduce.3 4 Ejemplos Describimos dos aplicaciones no triviales realizadas utilizando el marco HIPI MapReduce para crear puestos de trabajo. Estas aplicaciones son indicativos de los tipos de aplicaciones que permite a los usuarios interesados HIPI con grandes operaciones de imagen para hacer fácilmente. Estos ejemplos son difíciles e ineficaz en las plataformas existentes, pero sencillo de implementar con la API HIPI. 4.1 Principales componentes de imágenes naturales Como un homenaje al Hancocket. al, calculamos los 15 primeros componentes principales de imágenes naturales. Sin embargo, decidimos enlugar de muestreoal azar un parche de 15 imágenes, tomamos muestras de más de 1000 imágenes y 100 parches en cada uno. El tamaño de nuestro conjunto de entrada era 10.000 veces más grande que el experimento original. Además, no nos limitamos nuestras imágenes para imágenes naturales como el experimento original (aunque podríamos hacerlo en la fase de 3 Http://graphics.cs.cmu.edu/projects/im2gps/ sacrificio). Como tal, los resultados difieren pero disponen de características similares. Podemos establecer paralelismos en el proceso de calcular la matriz de covarianza paralas imágenesde acuerdo conla siguiente fórmula, donde xies una muestra Figura 4: Los 15 primeros componentes principales de una muestra aleatoria de 15 imágenes naturales, observados por Hancocket al. de izquierda a derecha, de arriba a abajo Figura 5: Los 15 primeros componentes principales de 100.000 imágenes muestreadas aleatoriamente los parches, como calculadocon HIPI de izquierda a derecha, de arriba a abajo Parche yx¯ es el parche muestra significa (1) Ecuación-1 HIPI trajes perfectamente porque la suma es groseramente paralelo. En otras palabras, podemos calcular fácilmente cada término de la sumatoria de forma independiente (suponiendo que ya tenemos la media), por lo tanto, podemos calcular cada término en paralelo. Debemos primero ejecutar un trabajo MapReduce para calcular la media de la muestra y, a continuación, utilizarlo como x¯cálculo de covarianza para el futuro. A continuación, ejecutamos un MapReduce trabajo que calcula(xi-x¯)(xi-x¯)T para todos 100 parches de cada imagen. Porque HIPI asigna una imagen por cada mapa, es tarea sencilla muestra al azar una imagende 100 parches yrealizar este cálculo. Cada mapa tarea será entonces emiten la suma de su parcial covarianzas muestreados enla imagena la reductora, donde todas
  • 5. las covarianzas parcial se sumarán a calcular la covarianza para todo el conjunto de muestra.4 Después de determinar la covarianza para 100.000 tomaron muestras al azar de parches, hemos utilizado el Matlab para encontrar los 15 primeros componentes principales. Como se esperaba, las imágenes no se correlacionan perfectamente porque estamos usando muchodiferentes insumos para nuestros experimentos, ynuestra pantalla de valores positivos ynegativos también puedendiferir ligeramente. Sinembargo, algunos de los principales componentes son los mismos (1, 7, 12), son meramente conmutado (2 y3, 4 y 5), o mostrar cierta semejanza con el experimento original (15). Realizar un análisis de componentes principales sobre un enorme conjunto de datos ilimitado, nos da unos conocimientos sin parangón sobre las imágenes. Para tareascomoestas, HIPI sobresale. 4.2 La descarga de millones de imágenes Paso 1: Especificar una lista de imágenes para coleccionar. Suponemos que existe una lista bien formado que contiene las URL de las imágenes para descargar. Esta lista debe ser almacenada en un archivo de texto con exactamente una imagen URL por línea. Esta lista puede ser generada por un lado, de MySQL, o a partir de una consulta de búsqueda (por ejemplo Google images, Flickr, etc.). Además de la lista de imágenes, el usuariointroducirá el númerode nodos que se ejecute la tarea. De acuerdo con esta entrada, se divide la imagen en el número especificado de nodos para la máxima eficiencia y el paralelismo al descargar las imágenes. Cada nodo en la tarea Mapa generará una imagen HIPI Bundle que contiene todas las imágenes que ha descargado, entonces el reductor se fusionan todos los paquetes de imagenHIPI formando una granimagenHIPI Bundle. Figura 6: Demostración de la paralelización en la aplicación Downloader. La tarea de la descarga de la lista de direcciones URL de las imágenes está dividida entre n Mapa de tareas. Cada mapper crea una imagen HIPI Bundle, que se fusionaron en una gran imagen HIPI Bundle enel reducir la fase Paso 2: dividir las URLs en grupos y enviar a cada grupo un mapa. Usandola lista de direcciones URL de imagenintroducida y el número de nodos utilizados para descargar estas imágenes, podemos distribuir equitativamente la tarea de descarga de imágenes para especificar el número de nodos del mapa. Esto permite que haya el máximo de paralelizaciónpara el procesode descarga. Url de la imagen se ha distribuido a los distintos nodos por igual, yel mapa de tareas comenzará a descargar cada imagen 4 Llamamos a esta suma parcial la covarianza parcial en el conjunto de direcciones URL es responsable, como muestra la figura 6. Paso 3: Descargar imágenes desde Internet. Podemos entonces establecer una conexióna la url se recuperan de la base de datos y descargar la imagenmediante la clase URLConnectionjava. Una vez conectado, podemos comprobar el tipo de archivo para asegurarse de que es una imagen válida, y obtenga un InputStream para la conexión. A partir de esto, podemos usar el InputStream para añadir la imagena una imagen HIPI Bundle. Paso 4:almacenar imágenes enuna imagenHIPI Bundle. Una vez que el InputStream es recibida de la URLConnection, podemos agregar la imagen a un paquete de imagen HIPI simplemente pasando el InputStream al método addImage. Cada tarea mapa generará una imagen HIPI Bundle y el reducir la fase combinará todos los paquetesjuntos enun granpaquete. Almacenandoimágenesde esta forma, usted podrá tomar ventaja de nuestro marco HIPI MapReduce para las tareas que desea realizar enla imagenfija enun punto posterior. Por ejemplo, para comprobar los resultados del programa de descarga, hemos ejecutado un programa muysimple MapReduce (7 líneas)que sea capaz de tomar la imagenHIPI Bundle yescribir las imágenes para archivos JPEG individuales sobre los HDFS sinesfuerzo. 5 Conclusión Este documento ha descrito nuestra biblioteca para el procesamientode imágenesyaplicacionesde visión enun marco Hadoop MapReduce - HIPI (Interfaz de procesamiento de imágenes). Esta biblioteca fue cuidadosamente diseñado para ocultar los detalles complejos de la potente Hadoop MapReduce marco y sacar a la luz lo que más preocupan a los usuarios: las imágenes. Nuestro sistema ha sido creado con la intención de operar en grandes conjuntos de imágenes. Proporcionamos un formato para almacenar imágenes para acceder eficientemente dentro del ducto y MapReduce métodos sencillos para crear dichos archivos. Proporcionando un sacrificio etapa antes de la fase de mapeo, nos dan al usuario una forma sencilla para filtrar conjuntos de imágenes y controlar los tipos de imágenes que se utilizanensus MapReduce tareas. Por último, proporcionamos los codificadores ydecodificadoresde imagenque correr detrás de las escenasytrabajar para presentar al usuarioconflotacióntipos de imagen que son más útiles para el procesamiento de imágenes y aplicaciones de visión. A través de estas características, nuestro interfaz trae consigoun nuevo nivel de simplicidad para la creación de aplicaciones de visión a gran escala con el objetivo de empoderar a los investigadores yprofesores con una herramienta eficiente para la creación de aplicaciones MapReduce centrado alrededor de las imágenes. Este papel describe dos ejemplos de aplicaciones construidas con HIPI que demuestran la potencia que presenta a los usuarios. Esperamos que para conseguir que los recursos y el poder de MapReduce a la visión que tenemos de la comunidad mejorará la capacidad para crear nuevos proyectos de visión que permitirá a los usuarios a empujar el campo de visión por ordenador. Lista de dire ccio Mapa 1 Mapa denodo nodo del mapa ...n Bundle 1 HIPI HIPI IMAGEN IMAGEN Bundle... HIPI HIPI Paquete n Reducir elpaquete de
  • 6. 6 Agradecimientos Nos gustaría dar lasgracias enparticular al candidatoa doctorado sean Arietta por su orientación y tutoría a lo largo de este proyecto. Su liderazgo y visión han sido excelentes modelos y puntos de aprendizaje para nosotros a lo largo de este proceso. Además, debemos dar un gran agradecimiento a l Profesor Ayudante Jason Lawrence por su apoyo a lo largo de los últimos años y por habernos acogido en UVa de gráficos del grupo como ojos brillantesestudiantes. Referencias Unarepresas, A., JACOBS, D., D, J. Olson, tico, M., PULLI, K. TALVALA, E., unaJDIN, B., VAQUERO, D., LENSCH, H., y HOROWITZ, M. 2010. La frankencamera: una plataforma experimental para la fotografía computacional. ACMSIGGRAPH 2010 papers, 1-12. UnPache, 2010. Hadoop Mapreduce Marco Http://hadoop.apache.org/mapreduce/.. CONNER, J. 2009. Personalización de formatos de archivo de entrada para el procesamiento de imágenes en hadoop. Universidad del Estado de Arizona. En línea en: Http://hpc. asu. edu/node/97. DEAN, J., y GHEMAWAT, S. 2008. Mapreduce: procesamientode datos simplificada engrandes grupos. Comunicaciones del ACM51, 1, 107-113. FACEBOOK, 2010. FacebookImagen Almacenamiento Http://blog.facebook.com/blog.php?post=206178097130.. GHEMAWAT, S., y GOBIOFF. . . , H. 2003. El sistema de archivos de google. ACMSIGOPSoperativo ... (ENE). GUO. . . , G. 2005. Aprender de ejemplos en el caso de muestras pequeñas: reconocimiento de la expresión facial. Sistemas(ENE). ANCOCK H, P., BADDELEY, R., y Smith, L. 1992. Los principales componentes de imágenes naturales. Red: cálculo en sistemas neuronales 3, 1, 61-70. LI, Y., y CRANDALL. . . , D. 2009. Clasificación histórica en grandes coleccionesde imágenes. Visión por Computador (ENE). LIU, K., LI, S., TANG, L., y WANG. . . , L. 2009. Rápidoseguimientofacial paralelo utilizando el algoritmo de filtro de partículas. Multimedia yExpo (ENE). STONO, Z., Y ZICKLER. . . , T. 2010. Hacia el reconocimiento de cara a gran escala utilizando un contexto de red social. Actas del IEEE (ENE). WHITE, B., YEH, T., la, J., y DAVIS, L. 2010. Escala web de Visión por computador usando mapreduce para minería de datos multimedia. Actas del Décimo Seminario internacional sobre minería de datos multimedia, 1-10. WHITE, 2010. El PequeñaArchivos Problema Http://www.cloudera.com/blog/2009/02/the-small- filesproblem/..