domingo, 25 de julho de 2010

Data Mining

Detectar tendências e comportamentos obscuros aos olhos do analista de negócios.
Conheça esta técnica de visualização de dados.
Por Fernando Vieira Coutinho, especialmente para o DwBrasil

Atualmente, muitas revistas de informática e de negócios têm publicado artigos sobre Data Mining. Contudo, há poucos anos atrás, muito pouca gente tinha ouvido falar a respeito. Apesar dessa tecnologia ter uma longa evolução de sua história, o termo como conhecemos hoje só foi introduzido recentemente, nos anos 90.

DataMining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. O DMvai muito além da simples consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e Banco de Dados.

Algumas vezes, projetos que começam como data warehouses se transformam em data marts. Quando as organizações acumulam grandes volumes de dados históricos para suporte à decisão que se mostram pouco ou nunca utilizados, elas podem reduzir o armazenamento ou arquivamento de informação e contrair o seu data warehouse em um data mart mais focado. Ou elas podem dividir o warehouse em vários data marts, oferecendo tempos de resposta mais rápido, acesso mais fácil e menos complexidade para os usuários finais.

Veja em que se baseia.


1.1) A estatística
O Data Mining descende fundamentalmente de 3 linhagens. A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e intervalos de confiança, todos usados para estudar dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e técnicas de DM, a análise estatística clássica desempenha um papel fundamental.

1.2) Inteligência Artificial
A segunda linhagem do DM é a Inteligência Artificial, ou IA. Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Em função desse “approach”, ela requer um impressionante poder de processamento, que era impraticável até os anos 80, quando os computadores começaram a oferecer um bom poder de processamento a preços mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do governo/cientistas americanos, sendo que os altos preços não permitiram que ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns conceitos de IA adotados por alguns produtos de ponta, como módulos de otimização de consultas para SGBDs.



1.3) Machine Learning
E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço/performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística.A machine learning tenta fazer com que os programas de computador “aprendam” com os dados que eles estudam, tal que esses programas tomem decisões diferentes baseadas nas características dos dados estudados, usando a estatística para os conceitos fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar os seus objetivos.

De muitas formas, o DM é fundamentalmente a adaptação das técnicas da Machine Learning para as aplicações de negócios. Desse modo, podemos descreve-lo como a união dos históricos e dos recentes desenvolvimentos em estatística, em IA e Machine Learning. Essas técnicas são usadas juntas para estudar os dados e achar tendências e padrões nos mesmos. Hoje, o DM tem experimentado uma crescente aceitação nas ciências e nos negócios que precisam analisar grandes volumes de dados e achar tendências que eles não poderiam achar de outra forma.


2 – Um resumo das principais técnicas de Data Mining

Existem inúmeras ramificações de Data Mining, sendo algumas delas:

• REDES NEURAIS
• INDUÇÃO DE REGRAS
• ÁRVORES DE DECISÃO
• ANÁLISES DE SÉRIES TEMPORAIS
• VISUALIZAÇÃO

Visão geral das tecnologias de Data Mining (DM)
O DM é um campo que compreende atualmente muitas ramificações importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicações.

Nenhum comentário:

Postar um comentário