domenica 28 ottobre 2007

Considerazioni sui dati splittati

Venerdì notte ho fatto splittare i dati famos nostri dell'endcap in 5 zone.

Da 2GB circa di dati iniziali ho ottenuto 5 file da 2 GB l'uno!
Ho notato il problema sopratutto leggendo i dati mettendo l'inputTag sbagliato(electronFilter al posto di IMAFiltering). In quel modo stava processando il 600Kesimo dato e non aveva ancora finito nonostante i dati in totale fossero 200k.

Il keep * insomma non funziona bene.
Il punto è che se imafilter, ma anche phifilter, non hanno associati il supercluster, come invece hanno electronFilter e secondFilter.
E senza il supercluster la matrice inversa non funziona.

Tralaltro facendo leggere così i dati con l'inputTag IMAFiltering ogni volta che trova un evento che non ha passato il filtro lancia una exception, che comunque non lo blocca, però sarebbe meglio che quegli eventi non li leggesse per niente, se no i dati filtrati non velocizzano per niente.

Una prima idea per fare i dati filtrati è quella di filtrare solo col secondFilter e fare un
drop *
keep *_alcaIsolatedElectrons_*_*
keep *_secondFilter_*_*

che così almeno il filtraggio su eta funziona.

Nessun commento: