dc.description.abstract |
A Resolução de Entidades (RE), ou seja, a tarefa de identificar entidades que se referem a um
mesmo objeto do mundo real, é uma tarefa importante e difícil para a integração e limpeza
de fontes de dados. Uma das maiores dificuldades para a realização desta tarefa na era de Big
Data é o tempo de execução elevado gerado pela natureza quadrática da tarefa. Assim, para
reduzir o tempo de execução, a tarefa de RE pode ser realizada em paralelo com o uso de
modelos programáticos construídos para rodar eficientemente em ambiente distribuído. Com
o poder da computação distribuída, é possível explorar os pontos fortes de tecnologias de
programação para sistemas distribuídos, como Erlang (uma linguagem de programação e sistema
de tempo de execução criado para aplicações distribuídas), e promover a resolução eficiente e
paralela de entidades dividindo a carga de trabalho da tarefa entre os recursos de um sistema
distribuído. Para tanto, a robustez da estratégia de balanceamento da carga de trabalho, entre
os nós da infraestrutura distribuída, é crucial para se alcançar alta eficiência. Os resultados
mostram que, entre as abordagens para balanceamento de carga desenvolvidas neste trabalho,
existem abordagens que, ao serem executadas, apresentaram padrões que evidenciam o aumento
significativo de desempenho da tarefa de RE distribuída, promovendo, assim, uma redução no
tempo de execução total e preservando a qualidade da detecção de pares de entidades similares. |
pt_BR |