Thursday, February 20, 2014

Big Data for Managers, Quantitative Modeling and Advanced Modeling - Course Development Ideas - Post in Brazilian Portuguese

----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
Big Data for Managers Course Structure

Um curso de Big Data, que procure apresentar uma visão inicial das possibilidades e recursos, além de proporcionar experiência prática aos participantes teria os seguintes tópicos:

I - Modelagem de Dados

Introduzir o conceito de modelo de dados. O objetivo é mostrar o aluno as possibilidades de análise de dados fora do sistema tradicional de planilha, a qual aparece quando a quantidade de dados cresce e começam a aparecer complexas inter-relacionamentos entre as colunas de uma planilha.

Como são exemplos com objetivo de introduzir conceitos novos ou de melhorar o uso individual de recursos, recomenda-se iniciar esta parte com o Access e apresentar posteriormente bancos de dados relacionais que sejam escaláveis (SQL Server ou até mesmo o SciDB).

II – Estatística

A partir das bases de dados utilizadas para implementar os exemplos da parte I, pode-se explorar conceitos de análise estatística mais sofisticada, feita a partir de subconjuntos de dados extraídos e exportados de um DB (utilizado na etapa I).

Os primeiros exemplos envolvem Testes de Hipóteses, Anova e Regressão feitos no Excel.

Exemplos mais sofisticados de clusterização e análise fatorial são feitos no R

III – Big Data

Sempre através de exemplos práticos, de caráter gerencial, executados no computador o aluno já conheceu a importância da estrutura dos dados e a capacidade das técnicas estatística em transformar dados difusos em informação útil.

Neste momento ele é apresentado a técnica de captura de dados e “garimpagem” de informações em ambientes não estruturados (isto é reais). É aqui que se introduz Hadoop e MapReduce.

Os tópicos seriam :

  • a) Introdução ao Hadoop. Compreendendo sistemas distribuídos. Comparando DBs SQL e Hadoop. Compreendendo o MapReduce. Executando um programa simples de contagem de palavras
  • b) Estrutura do Hadoop. Implementação da Hortonworks em Windows, para máquinas individuais. Diferenças das implementações individuais (para teste e aprendizagem) das implementações típicas (em cluster).
  • c) MapReduce. Criação de programas em MapReduce. Combinação de diferentes fontes de dados. Criação de filtros.
  • d) Integração R e Hadoop
  • e) Estudos de caso: New York Times Archive, Mining at China Mobile, Websites at StumbleUpon, IBM Project ES2


IV – Estudos de Caso

O curso conclui com exemplos de predictive analytics nas áreas de: propaganda, preferencias e escolha dos consumidores, market basket analysis, análise econômica, operações, text analytics, esportes, relação entre marca e preço e também análise espacial de dados.

Estes exemplos exploram e integram as 3 etapas apresentadas acima.

----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------
Quantitative Modeling Basic Course

  1. Spreadsheet problem modeling
  2. Results optimization
  3. Uncertainty simulation
  4. Examples:
  • Production and marketing mix optimization.
  • Advertising results analysis. 
  • Problem linearization and operation sequencing: oil and pharma industry examples.
  • Operations management applications. 
  • Financial applications. Cash flow management.
  • Network distribution optimization.
  • Resource allocation. Territory assignment and facilities location.
  • DEA – Data Envelopment Analysis. Applications in services, finance and third sector organizations.
  • Integer and binary programming
  • Results simulation under uncertainty conditions: overbooking, market-share, product insurance, cash flow, VaR (Value At Risk) introduction.



Advanced Course (A.I. Applied to Business Problems)

  • Softwares: Excel, Solver (2010) & Palisade @RISK
  1. Non linear optimization: gradient methods, application limitis. Evolutionary methods. Multiple Start Methods. Pricing, operations and investment applications with Solver 2010 and Palisade Evolver
  2. Neural nets applications. Credit portfolio management and risk analysis with Palisade Neural Tool.
  3. VBA intro. Monte Carlo simulation review. Applications in finance, hedging, futures and derivatives using Microsoft Excel spreadsheet and Palisade @RISK.
  4. Optimization under uncertainty. Derivatives pricing. Hedge,futures and derivatives optimization  with Excel, Palisade RISKOptimizer & VBA.