Apache Hadoop 3.3.0 include miglioramenti per le piattaforme ARM e altro ancora

Dopo un anno e mezzo di sviluppo, è stato rilasciato Apache Software Foundation il lancio della nuova versione di Apache Hadoop 3.3.0, versione in cui ha aggiunto miglioramenti per le piattaforme ARM, supporto per la pianificazione dei lanci di container e altre cose.

Apache Hadoop si posiziona come una piattaforma gratuita per organizzare il elaborazione distribuita di grandi quantità di dati utilizzando il paradigma mappa / riduzione, in cui un'attività è suddivisa in molti blocchi isolati più piccoli, ognuno dei quali può essere eseguito su un nodo del cluster separato.

Archiviazione basata su Hadoop può estendersi su migliaia di nodi e contenere exabyte di dati.

Informazioni su Apache Hadoop

Hadoop include un'implementazione del file system distribuito Hadoop (HDFS), che fornisce automaticamente la ridondanza dei dati ed è ottimizzato per le applicazioni MapReduce.

Una funzionalità chiave è che per un'efficace pianificazione del lavoro, ogni file system deve conoscere e fornire la sua posizione, il nome del rack (più precisamente, dello switch) in cui si trova il nodo di lavoro.

Le applicazioni Hadoop possono utilizzare queste informazioni per eseguire lavori sul nodo in cui si trovano i dati e, in caso contrario, sullo stesso rack / switch, riducendo così il traffico di rete.

Per semplificare l'accesso ai dati nello spazio di archiviazione di Hadoop, Il database HBase e il linguaggio Pig simile a SQL sono stati sviluppati, che è un tipo SQL per MapReduce, le cui query possono essere parallelizzate ed elaborate da varie piattaforme Hadoop.

Il progetto è valutato come completamente stabile e pronto per il funzionamento industriale. Hadoop viene utilizzato attivamente in grandi progetti industriali, fornendo funzionalità simili alla piattaforma Google Bigtable / GFS / MapReduce, mentre Google ha ufficialmente delegato Hadoop e altri progetti Apache hanno il diritto di utilizzare tecnologie coperte da brevetto relative al metodo MapReduce.

Hadoop è al primo posto tra i repository Apache in termini di numero di modifiche apportate e la quinta base di codice più grande (circa 4 milioni di righe di codice).

Cosa c'è di nuovo in Apache Hadoop 3.3?

Questa nuova versione di Hadoop è posizionata come la prima versione che ha el supporto per piattaforme basate su ARM, Con il quale chi fosse interessato a poter implementare questa piattaforma potrà trovare il binario per ARM già disponibile.

Un altro dei principali cambiamenti che viene presentato in questa nuova versione è il implementazione della nuova versione del formato Protobuf (Buffer di protocollo) utilizzati per serializzare i dati strutturati è stato aggiornato alla versione 3.7.1 a causa della fine del ciclo di vita del ramo protobuf-2.5.0.

Oltre a ciò, anche le capacità del connettore S3A sono già state ampliate che ora lo ha aggiunto il supporto per l'autenticazione tramite token, supporto migliorato per la memorizzazione nella cache delle risposte con un codice 404, prestazioni S3guard più elevate e maggiore affidabilità operativa.

anche Aggiunto servizio risolutore DNS affinché il client determini i server tramite DNS in base ai nomi host, il che consente di fare a meno dell'elenco di tutti gli host nella configurazione.

Così come il supporto per la pianificazione dei lanci di container tramite un gestore di risorse centralizzato (ResourceManager), anche con la possibilità di distribuire container tenendo conto del carico di ogni nodo.

Tra gli altri cambiamenti che si distinguono di questa nuova versione:

  • I problemi con l'ottimizzazione automatica sono stati risolti nel file system ABFS.
  • Aggiunto il supporto nativo per il file system Tencent Cloud COS per accedere allo storage degli oggetti COS.
  • È stato aggiunto il supporto completo per Java 11.
  • Stabilizzata l'implementazione HDFS RBF (Router Based Federation). I controlli di sicurezza sono stati aggiunti al router HDFS.
  • Ricerca nella directory dell'applicazione YARN (un altro negoziatore di risorse) aggiunta.

Infine, se vuoi saperne di più, puoi controllare i dettagli della nuova versione su il post originale.

Per coloro che sono interessati a poter ottenere la nuova versione, possono scaricare i binari preparati nel seguente link