Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Universidade do Minh...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
addClaim

Big Data Warehousing em tempo real: da recolha ao processamento de dados

Real-time Big Data Warehousing: from collection to data processing
Authors: Lima, Francisca Leitão Gonçalves do Vale;

Big Data Warehousing em tempo real: da recolha ao processamento de dados

Abstract

A evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão. Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto, o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma organização compreender o papel de cada componente e tecnologia numa arquitetura para a concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados atuais, a fluir em tempo real, com dados históricos.

Country
Portugal
Related Organizations
Keywords

Big data, Hadoop, Big data warehouse, Real-time, Hive

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green