
handle: 1822/53679
A evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão. Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto, o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma organização compreender o papel de cada componente e tecnologia numa arquitetura para a concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados atuais, a fluir em tempo real, com dados históricos.
Big data, Hadoop, Big data warehouse, Real-time, Hive
Big data, Hadoop, Big data warehouse, Real-time, Hive
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
