Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Reducer 1: TF-IDF and Co-Occurrence Getting Started on Hadoop

20.575 visualizaciones

Publicado el

Reducer 1: TF-IDF and Co-Occurrence

red_idf.py takes the shuffled output from map_parse.py, collects metadata
for each term, calculates TF-IDF to use in a later stage for filtering, calculates
co-occurrence probability, then emits all these results:



(doc_id, msg_uri, date)

(sender, receiver, doc_id)

(term, idf, count)

(term, co_term, prob_cooc)

(term, tfidf, doc_id)

(term, max_tfidf)

Publicado en: Tecnología

×