Friday, October 16, 2015

Commentaries and excerpts about "On Intelligence" by Jeff Hawkins

An excellent book for those that are in search for a real world (a.k.a.materialist) explanation for the conscience and reasons for us being able in the near future of building intelligent and / or conscient machines


  • Intelligence must not be defined in terms of behavior but in terms of prediction capability. Behavior is something that comes from prediction capability and not the other way around.
  • Our brain is a correlation machine. It matches inputs from the senses with series of inputs stored in the synapses and forecasts what will happen next. If in the short term, forecast matches the new input sequences, an "OK" feedback is passed by higher regions of the neocortex to its lower regions. If not, adjustments need to be done. This is called "attention to something".
  • The stored sequences are called "Invariant Representations". This idea comes from Plato, although the forms are neither perfect nor stored in heaven but stored in the brain itself. They are invariant in the sense that a long series of inputs matching new patterns (and consequently making void the stored forms) must be presented to the brain for the "Invariant Representation" to be changed.
  • What comes from the definition explained above is that our brain is composed of similar parts grouped together in an hierarchical system. The correlation and prediction / correction algorithms are the basic part of our neocortex (a kind of machine language programming).
  • Also, on a mathematical point of view, our brain works continuously making Fourier and Principal Components Analysis.

I have posted several quotations from the book itself below, and leave them for your comments:

  • "Intelligent machines will arise from a new set of principles about the nature of intelligence."
  • "They [engineers] will continue to fail as long as they keep ignoring the differences between  computers and brains"
  • "Redwood Neuroscience Institute dedicated to brain theory and  finding a theoretical understanding of the neocortex"
  • "The biggest mistake is the belief that intelligence is defined by intelligent behavior"
  • "The brain uses vast amounts of memory to create a model of the world. Everything you know and have learned is stored in this model. The brain uses this memory-based model to make continuous predictions of future events. It is the ability to make predictions about the future that is the crux of intelligence. I will describe the brain’s predictive ability in depth; it is the core idea in the book."
  • Scientific American - September, 1979 - Special issue on brain
  • John Searle - Chinese Room Experiment
  • Three key factors: a)  the inclusion of time in brain function, b) the importance of feedback, c)  any theory should account for the physical architecture of the brain
  • "Backpropagation doesn't qualify as feedback because it only works in the learning phase"
  • "Almost none of them [neural networks, circa 2003] attempt to capture the overall function or architecture of the neocortex."
  • "Both [neural networks and AI programs] are fatally burdened by their focus on behavior. Whether they are calling these behaviors “answers,” “patterns,” or “outputs,” both AI and neural networks assume intelligence lies in the behavior that a program or a neural network produces after processing a given input. The most important attribute of a computer program or a neural network is whether it gives the correct or desired output. As inspired by Alan Turing, intelligence equals behavior."
  • "[There were] networks that didn’t focus on behavior. Called auto-associative memories, they were also built out of simple “neurons”."
  • "they were interconnected differently, using lots of feedback. Instead of only passing information forward, as in a back propagation network, auto-associative memories fed the output of each neuron back into the input"
  • "[To retrieve a memory from it] you don’t have to have the entire pattern you want to retrieve in order to retrieve it."
  • "unlike most other neural networks, an autoassociative memory can be designed to store sequences of patterns, or temporal patterns. This feature is accomplished by adding a time delay to the feedback. With this delay, you can present an auto-associative memory with a sequence of patterns, similar to a melody, and it can remember the sequence."
  • the brain uses circuits similar to an auto-associative memory to do so
  • "Auto-associative memories hinted at the potential importance of feedback and time-changing inputs. But the vast majority of AI, neural network, and cognitive scientists ignored time and feedback."
  • "Neuroscientists ... know about feedback ... but ... no theory ... beyond ... talk of "phases" and "modulation". ... time has ... no central role in most of their ideas on overall brain function. They tend to chart the brain in terms of where things happen, not when or how neural firing patterns interact over time."
  • "[functional imaging tells you WHERE things are happening but not WHEN and HOW they are happening. Telling somebody to repeatedly perform a task is not good enough of an experiment exactly because the second time you perform a task your brain is not in the same mental state as before."
  • "We don’t have machines that think, we have machines that do. Even as we observe our fellow humans, we focus on their behavior and not on their hidden thoughts."
  • "However ... our intuition is often the biggest obstacle to discovering the truth. Scientific frameworks are often difficult to discover, not because they are complex, but because intuitive but incorrect assumptions keep us from seeing the correct answer."
  • "Intelligence is something that is happening in your head. Behavior is an optional ingredient. [Since] behavioral equivalence is not enough... intelligence is an internal property of a brain, [therefore] we have to look inside the brain to understand what intelligence is."
  • "there is an underlying elegance of great power, one that surpasses our best computers, waiting to be extracted from these neural circuits"
  • "Connectionists intuitively felt the brain wasn’t a computer and that its secrets lie in how neurons behave when connected together."
  • [EU: interessante perceber que toda a teoria de redes neurais se deu a partir de redes com três camadas. Eu sempre pensei que o ideal seria aumentar a quantidade de níveis para justamente aumentar a capacidade de decisão da rede. No entanto nunca imaginei algo parecido com as redes auto-associativas. Feedback para mim era sinônimo de "back-propagation", no entanto o que o autor propõe é implementar o feedback como parte da arquitetura operacional da máquina em modo permanente!]
  • FUNNY: "Your neocortex is reading this book"
  • "I am not interested in building humans. I want to understand  intelligence and build intelligent machines. Being human and being intelligent are separate matters."
  • "Every moment in your waking life, each region of your neocortex is comparing a set of expected columns driven from above with the set of observed columns driven from below. Where the two sets intersect is what we perceive"
  • "behavior and perception are almost one and the same"
  • "motor behavior must also be represented in a hierarchy of invariant representations"
  • "Conscience is what we feel when we have a neocortex!"

Sunday, March 29, 2015

Compiling and running Hadoop's WordCount.java

After installing and running Hadoop for the first time, it came the moment when I would have to compile and run one of the Hadoop's utilities. The first one is WordCount.java.

I first tryed doing the adjustments in Hadoop 2.6.0 but the differences where enough to prevent one from following the book. So I downloaded and unpacked Hadoop 1.2.1. Also I decided to keep just one directory with Hadoop, which was /usr/local/src/hadoop, plain and simple.

If you just try running the compiler with the commands as they are depicted in Chuck Lam's Hadoop in Action, the compilation process stops with several errors being found. 

My first reaction was to say: "Well, I would have to learn Java for real one day...". But after a while I decided to look for that mistake in specific on the Internet. To my surprise, the book site had several suggestions on how to overcome the compilation error in WordCount.java.

To make a long story short, the right command to make it work is javac -classpath /usr/local/src/hadoop/hadoop-core-1.2.1.jar:/usr/local/src/hadoop/lib/commons-cli-1.2.jar -d playground/classes playground/src/WordCount.java where javac is the java compiler and classpath is the path where hadoop-core and any other java library that can't be found by default by the java compiler is located.
 
In this case if you issue just the standard command as it is written in the book "javac -classpath hadoop-core-1.2.1.jar -d playground/classes playground/src/WordCount.java" it will fail with several errors.
 
This can be partially overcome if you specify hadoop-core-1.2.1.jar directory explicitly. In this case you would issue: "javac -classpath /usr/local/src/hadoop/hadoop-core-1.2.1.jar -d playground/classes playground/src/WordCount.java". This will narrow the ammount of errors to one which is "class file for org.apache.commons.cli.Options not found".
 
Looking for commons.cli library in the hadoop tree structure you will see that it can be found at /usr/local/src/hadoop/lib and it's full name is commons-cli-1.2.jar. Now issue the command with both java libraries fully specified in the -classpath option (as presented in the beggining of the explanation) and it should compile smoothly.
 
This command can be reduced if you specify /usr/local/src/hadoop in PATH (export PATH=$PATH:/usr/local/src/hadoop). In this case the command would became: "javac -classpath hadoop-core-1.2.1.jar:/usr/local/src/hadoop/lib/commons-cli-1.2.jar -d playground/classes playground/src/WordCount.java"
 
Just remembering that it is also of good advice adding hadoop's command line utility path in environment PATH variable (export PATH=$PATH:usr/local/src/hadoop/bin), because this will make it avaiable for running just by typing "hadoop". Also, PATH has no effect in "lib"s directories (as far as I have noticed).

Long live Hadoop!

Gustavo

Installing Hadoop in an Ubuntu environment

My first experience with Hadoop started when I tried to download it. With several versions of this (at first) misterious and almost fantastic program, Hadoop has developed a kind of "aura" in itself. Everybody in the IT community has heard of it recently, some have even written articles about it, but very few have seen it working, even less made it work from scratch. My intention is to try becoming one of these few "initiates"... :)

If you are new in a territory, i.e. you're navigating in uncharted waters, try finding some guide to help you through with it. In my case, I'm following the steps depicted in the book Hadoop in Action from Chuck Lam. The book was written in 2012 (almost a generation ago in the Big Data community in general and in Hadoop in particular), but I think it is sufficiently good to guide you and sufficiently outdated (yes, outdated) to make you think on how to adapt the commands.

Getting back to the download part, I noticed that there're two version of Hadoop avaiable to download, 1.2.1 and 2.6.0. I started downloading 2.6.0. Later I would comeback here in www.apache.org and would download 1.2.1 but this would happen later.

Also, I tried to install cygwin so I could still run Hadoop in (at that time) Windows 8 but I started facing so many difficulties that I decided to move my studies of Big Data (at least the Hadoop part of it) to Ubuntu. Yes, this was a momentous decision. I, a guy from the Windows world, was going to start walking in the shores of "Linux Middle Earth" in the search of this cybernetic version of "The Lord of The Rings" called Hadoop... :).

After fiddling around the possibilities of having a dual booted machine (with Windows and Linux) I understood that machines should have (usually) only one master operating system. In my case this was going to be at first Windows 8.1. Unfortunately Windows 8.1 was so prone to have all sorts of problems, strange features, idiosyncrasies and just plain bugs that it soon became impossible to work with it. I decided to downgrade my operating system to Windows 7, downloaded an Oracle Virtualbox, a master disk of Ubuntu (the so called version of Unix for Human Beings), installed Ubuntu now on a virtual machine (with Windows 7 as host) and started to work.

Ubuntu is an interesting thing. It is enough graphical to make you able to do basic work from the start, but it is still Unix. So, if you want to really know how things are done, you need to lose the fear of learning an entirely new language and logic of commands and move to terminal (as it is called the command line in the Unix world). But this task has been made easier because of the large Ubuntu community. Therefore, almost any doubt can be solved with a simple Google search. So you're up and learning in a short amount of time. 

Ubuntu in particular and Unix in general is an interesting experience for a Windows person. It is also a knowledge that I now don't regret in having investing a reasonable amount of time in learning. Specially in the Big Data arena, Unix is the OS of choice (sorry fellow Windows friends but this is sadly true...), so if you want to do serious Big Data stuff, get your Ubuntu's capabilities ready! Full disclosure: these are my personal views as of March, 29th 2015. Things change fast, so I can't say that in a year Windows either will or won't become an excellent or even better platform for Hadoop development.

Returning to the point at issue here, as I said, I downloaded Hadoop from http://hadoop.apache.or/core/releases.html and saved the file hadoop-2.6.0.tar.gz (this is not the Hadoop source) in /usr/local/src. Than I unpacked hadoop-2.6.0.tar.gz (with the command tar - xzvf hadoop-2.6.0.tar.gz) which created a directory named hadoop-2.6.0.

Hadoop is a java program. So, anything that is developed with it is done in Java. So the next step is to download the java development kit, so called JDK. After that, you need to specify the Java directory in JAVA_HOME environment variable and the path to the Java binaries in PATH environment variable. To install JDK  on Ubuntu: sudo apt-get install openjdk-7-jdk and to find the Java directory apt-cache search jdk and ls -al /etc/alternatives/java. Have in mind that the answer for this last command will be: /etc/alternatives/java -> /usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java but the "correct" directory to be placed in JAVA_HOME is /usr/lib/jvm/java-7-openjdk-amd64 and in PATH is /usr/lib/jvm/java-7-openjdk-amd64/bin. The commands to make all of this happen are two: export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64, and export PATH=$PATH:/usr/lib/jvm/java-7-openjdk-amd64/bin. After this issue a simple command javac so you can check if java-jdk is working fine.
     
Now, edit /hadoop-2.6.0/etc/hadoop/hadoop-env.sh and change the original line where it is written "export JAVA_HOME=${JAVA_HOME}" with the line "export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64". In my case, file was located in /usr/local/src/hadoop-2.6.0/etc/hadoop. 

In case hadoop's path is not located in environment variable PATH, and neither is the current directory, Hadoop to run needs to be called as /usr/local/src/hadoop-2.6.0/bin/hadoop

After all this, I went again to terminal, typed Hadoop and voilá, got the standard answer when the program is called without any parameter. 

HADOOP IS WORKING!

Best regards, 

Gustavo,

Friday, March 20, 2015

Food for Thoughts: People Perceptions of Highly Improbable Events and The Crisis of 2008 (post in Brazilian Portuguese)

O fenômeno das fat-tails como uma ilusão estatística ou A crise de 2008 é um evento INTEIRAMENTE dentro da teoria econômico-financeira

Estava escutando o livro do Kaneham, na parte em que ele fala da percepção da probabilidade de ocorrência de eventos raros ou extremos por parte das pessoas, quando me ocorreu uma ideia que talvez possa ser traduzida em um paper.

Após a crise de 2008 tenho escutado (lido) com certa frequência que a distribuição dos retornos dos ativos financeiros não seguiria, nos seus extremos, uma curva normal e sim uma curva com os extremos mais pronunciados ( “fat tails” em inglês). Talvez este suposto fenômeno seja na verdade uma ilusão provocada pela percepção distorcida de probabilidade de eventos raros que as pessoas tem. A argumentação parte da percepção das pessoas quanto a probabilidade de ocorrência de eventos raros, isto é, com uma baixíssima possibilidade.

Eventos negativos que as pessoas nunca tenham experimentado (ou sequer tomado conhecimento, justamente pelo fato deles serem raros) levam a uma percepção de probabilidade bem mais baixa daquela que eles efetivamente possuem.  Isto causa uma falsa sensação de segurança e por consequência uma sub-avaliação do risco associado aos mesmos. As pessoas (os investidores em geral) assumem desta forma posições desnecessariamente arriscadas, levando, quando o evento ocorre, a uma percepção inversa, isto é, de que os mesmos tem uma probabilidade maior de ocorrer do que a probabilidade real.

Eventos negativos que as pessoas tenham experimentado (pelo fato de, embora raros, a quantidade absoluta de ocorrências dos mesmos é suficiente para coloca-los em evidência na media ou na memória de todos) levam a uma percepção de probabilidade maior do que aquela permitida pela estatística. Isto permite por exemplo, às companhias de seguro venderem apólices cujo valor real esta abaixo do preço de venda

A idéia de pesquisa seria mostrar que o que varia quando um evento raro acontece é a percepção de probabilidade de ocorrência das pessoas e não uma alteração (ou falha) básica no modelo das probabilidades dos retornos, o qual continua seguindo uma curva normal.

Abraços,

Gustavo,

Thursday, March 19, 2015

Research Program on Information Diffusion in Massively Connected Networks

Sometime ago I prepared a research program for studying the spread of information in massively connected networks. The program was inspired in an article about the same subject that can be found at https://www.mpi-inf.mpg.de/~tfried/paper/CACM1.pdf.

For those interested in this subject, the presentation can be downloaded from https://docs.google.com/presentation/d/1UsRiYGDP1Cz3T4wwCmKP3C3bNzUTQkrOKMKsshcztzg/edit?usp=sharing

Best regards,

Gustavo

Richard Bellman and The Origins of Dynamic Programming

For those interested in Dynamic Programming, I prepared a seminar about Richard Bellman, the topics that led to the development of Dynamic Programming and the debate between him and Simon about the future of computing.

The presentation can be found at https://docs.google.com/presentation/d/1gaK6kO4Sy4iPVHF4Wv-lE0j7mxR--krZDFx10AcDg84/edit?usp=sharing .

Good reading!

Gustavo,

Linear Programming and George Dantzig

For those interested in optimization problems in general and linear programming in particular, there´s an excellent scientific mini-biography of George Dantzig available for download at http://www.ams.org/notices/200703/fea-cottle.pdf . Of special notice for researchers and practitioners nowadays is one of the latest subjects of interest for Dantzig: stochastic optimization. In his own words (see article above) "stochastic optimization is where the real problems are".

Best regards,

The Consequences for Management Science of Robert McNamara´s "Body Count Measure" during The Vietnam War (post in Brazilian Portuguese)


Em 2013 (a quase dois anos...) terminei a leitura do livro "Big Data Revolution". É um livro voltado para o público em geral, apresentando, entre outros tópicos, uma grande listagem de empresas e idéias de negócio / consultoria que estão sendo aplicadas nos Estados Unidos e Europa. 

O tema deste post diz respeito a uma das passagens do livro. Nela é descrita (de maneira sucinta) a carreira de Robert McNamara, secretário de estado do governo americano na década de 60, sua paixão pelo "management science" e sua influência na forma como a guerra do Vietnã foi conduzida.

Coloco abaixo algumas passagens do livro: “McNamara developed his love of numbers as a student at Harvard Business School and then its youngest assistant professor at age 24. He applied this rigor during the Second World War as part of an elite Pentagon team called Statistical Control, which brought data-driven decision-making to one of the world’s largest bureaucracies”. "At war’s end, the group decided to stick together and offer their skills to corporate America". Aqui aparece, provavelmente a mão da Rand Corporation e do grupo de "iluminados" liderados por Dantzig e cia... mais uma vez.

“McNamara rose swiftly up the ranks (at Ford Motor Company), trotting out a data point for every situation. Harried factory managers produced the figures he demanded—whether they were correct or not”. O livro faz uma digressão neste ponto sobre a guerra do Vietnã e sua gestão por números. McNamara propos e aplicou (a força) o critério de "body count" para "gerenciar" a guerra, critério esse que levou a uma série de "mismanagements" nas operações militares americanas.
“McNamara epitomized the mid XXth century manager, the hyper-rational executive who relied on numbers rather than sentiments, and who could apply his quantitative skills to any industry he turned them to”

“The use, abuse, and misuse of data by the U.S. military during the Vietnam War is a troubling lesson about the limitations of information in an age of small data, a lesson that must be heeded as the world hurls toward the big-data era. The quality of the underlying data can be poor”. Foi ai que eu anotei o seguinte comentário no e-book : Perhaps this mistake was the trigger for the downplay of highly quantitative techniques in the 70s. Here we have a paper: the effect of McNamara and the Vietnam War in the development of decision sciences during the 70s and the 80s. There´s a book called The War Managers that exposes this problem (like the body count measures)

Aqui parece haver espaço para um artigo sobre uma parte da história da Pesquisa Operacional, sua influência e as consequências do seu uso.

Abraços a todos.

Research Topics on The Origins and History of Operations Research

A possible list of research topics about the origins and history of Operations Research could include:


  1. Initial Meetings and research trends in the 1940s - How O.R. was popularized or how O.R. became a fashionable topic (on an academic and managerial perspective)  
  2. The so called "Paradox Decade" (50s)
    1. The critics of optimization and hard solutions for social problems (Ackoff for instance)
    2. The reality of economic theory and the challenge of providing plenty for many
  3. Researchers outside the mainstream path: Bellman, Raiffa
  4. Thomas Edson and OR before 1940
  5. Cooper and company x Dantzig
  6. Computation + automation of tasks and OR
  7. The Bellman x Simon Debate and their forecasts - Which was more prescient?
  8. The 4Ps of O.R.: Paradoxes, Programmers, Pamphleteers, Propagandists
  9. The effect of Robert McNamara and "The Body Count Measure"

Wednesday, February 25, 2015

Non Big Data Post - Causas e Consequências da I Guerra Mundial (Post in Brazilian Portuguese)

Variando um pouco de assunto: um dos meus hobbies de leitura é o tema I Guerra Mundial e a diplomacia no século XIX e início do século XX. A este respeito dei uma entrevista (por e-mail) para o Jornal Contraponto, dos alunos do curso de Jornalismo da PUC-SP. Trechos da mesma foram publicados na edição no.94 de setembro de 2014. A edição pode ser lida em formato digital no endereço: http://issuu.com/jornal.contraponto/docs/cp94.2014. Agradeço ao meu colega Prof.Montoya pela indicação para a entrevista.

Transcrevo abaixo as perguntas e respostas na íntegra:

Respostas enviadas para Manoela Smith, Jornalismo, PUC-SP, Jornal Contraponto. manoellasmith@gmail.com

1) Na sua opinião, quais foram as maiores consequências da Primeira Guerra? 

  - No campo político foi o início da mudança da Europa para a América e Ásia do centro decisório da política internacional. A preeminência dos Estados Unidos (no hemisfério ocidental) e do Japão (no hemisfério oriental) começou a ser percebida (ainda que desdenhada) ao final do conflito na conferência de Versalhes.

Este desdém, por parte da Inglaterra e da França, levou tanto a alienação do Japão (o que criaria ressentimentos que teriam graves consequências internas na política japonesa, as quais levariam em última análise a aventura expansionista de 1941) quanto a nulidade de efeito da iniciativa de autodeterminação do presidente americano Woodrow Wilson.

Falarei mais adiante de uma dicotomia entre os modelos decisórios utilizados pelos líderes políticos em 1914 e os meios materiais e sociais a sua disposição. Pois bem, em 1918, esta dicotomia entre a forma de pensar dos líderes e as realidades impostas por um mundo que havia mudado rapidamente ao final do século XIX, levaram os mesmos a cometer erros crassos, muitas vezes simplórios. Ao ler os relatos das discussões realizadas em Versalhes me parece que Clemenceau e Loyd George pensavam estar na verdade em Viena, em 1815.  

- No campo econômico foi a mudança de foco da conquista de espaço geográfico para uma época em que o poder passou a ser medido por níveis de influência, seja ela econômica, seja ela cultural. E esta influência passou a ser, cada vez mais, definida pelo nível de inovação, conhecimento produzido na sociedade. Pode-se dizer que os avanços tecnológicos do século XIX e início do século XX catalisaram uma mudança econômica que levou, nos dias atuais, a chamada sociedade do conhecimento. 

Por outro lado, as lideranças políticas do início do século tiveram sua formação no século XIX e em contato com ideias que vinham muitas vezes do século XVIII. Este hiato, ou talvez fosse melhor dizer esta incompreensão do que ocorria na sociedade foi o causador da brutalidade desencadeada em Julho de 1914. Minha impressão é que os líderes, tanto políticos quanto militares no início do século não perceberam o quanto o interior de suas sociedades tinha mudado desde que eles iniciaram suas carreiras. 

As decisões daqueles fatídicos anos do início do século e daquele infeliz mês de Julho/Agosto de 1914 mostram claramente políticos pensando em conflitos, tal como se pensava até a Guerra Civil Americana (ou a Guerra da Criméia), quando o conflito em si era considerado um affair dos militares e que muitas vezes passava despercebido pela grande maioria da população.  

Um exemplo que gosto de citar (infelizmente esqueci a fonte) é um relato da batalha de Waterloo. No texto que li muitos anos atrás, uma senhora reclamou que seus lençóis haviam ficado sujos por causa da grande quantidade de cavalos, os quais para ela sem razão aparente tinham passado pelo seu campo naquela manhã. Veja: uma das mais importantes batalhas do mundo ocidental, a qual iria definir o destino da Europa por 100 anos, estava ocorrendo praticamente no quintal desta singela senhora e ela não sabia nem que um conflito ocorria no interior do seu país.

Cem anos depois, os descendentes desta mesma senhora, estavam lutando todos, de um lado ou de outro, em outros campos não muito longe dali (no Marne, em Verdun ou no Somme), em um número impossível de ser imaginado no início do século XIX e todos motivados por ideais que cem anos antes eram entendidos (se é que eram) apenas pelos oficiais ou os grandes líderes políticos.

O que os líderes em geral não entenderam foi que mobilizar grandes volumes de pessoas, com tecnologias infinitamente mais letais, as quais requeriam uma coordenação econômica jamais vista para ser posta em ação, era radicalmente distinto de mobilizar pequenos grupos de soldados (quando pensamos em termos proporcionais à população total) e coloca-los em ação com objetivos muitas vezes paroquiais.

Em resumo: ninguém, em especial as lideranças políticas, tinha ideia do que seria o conflito, porque seu mindset ainda estava nos séculos XVIII e XIX. Esta dicotomia entre o modelo e a realidade levou sem sombra de dúvida às irresponsáveis decisões de Julho de 1914 e dos primeiros anos de guerra o que foi eufemisticamente chamado pelo principal comandante inglês (William Haig) de curva do aprendizado do seu exército. Um aprendizado realizado ao custo de, por exemplo, 20.000 Tommies só na primeira manhã da ofensiva do Somme em 1916.  Ou pela decisão do comandante alemão na frente ocidental (Falkenhayn) de sangrar a França até a morte na ofensiva de Verdun, também em 1916.

- No campo social, foi o estabelecimento de um vácuo de poder, causado pela ausência de homens nas atividades do cotidiano, nas economias centrais, o que foi preenchido por minorias (em especial o público feminino), as quais obtiveram, mantiveram e expandiram seus direitos por causa da guerra. O exemplo típico desta situação é o do sufrágio universal nas democracias ocidentais (notadamente Inglaterra e França). Por causa da enorme quantidade de homens que foram deslocados para as frentes de combate, as mulheres obtiveram um espaço no ambiente produtivo, o que levou rapidamente ao final da guerra (na Inglaterra) ao direito ao voto, ao trabalho e a independência, pessoal e financeira. Além disso, as massas de soldados que foram mobilizadas em nome de um ideal, ao retornarem dos campos de batalha, exigiram participação nas decisões políticas, o que levou ao sufrágio universal (na Inglaterra e França). Isto trouxe profundas consequências na forma como as democracias ocidentais passaram a ser geridas. 

1b) Algumas delas refletem no mundo até hoje?

- Com certeza, muitas das características da nossa época foram forjadas pelos quatro anos de loucura que tomou conta do mundo entre 1914-1918. Como foi dito acima, as mudanças sociais e políticas foram aceleradas pelo conflito.  Penso no conflito como um catalisador de uma enorme quantidade de mudanças que iriam ocorrer de uma forma ou de outra. A maneira exata em que elas ocorreram é que foi definida pelo conflito (em especial pela sua escala e brutalidade).

Teorizando um pouco mais, entendo que as mudanças sociais no seu fundo são provocadas por alterações na ordem econômica. Sem ser Marxista, ou advogar causas de esquerda, creio que Marx acertou em cheio ao dizer que a economia é o fundamento de todas as regras sociais. Pois bem, a tecnologia (a grande causadora de mudanças econômicas) havia progredido mais no século XIX do que em toda a história da humanidade. É natural (hoje) entender que o mundo tinha se alterado de maneira radical. Sendo assim, as transformações sociais iriam ocorrer de uma forma ou de outra. A I Guerra tendo sido travada do jeito que foi, teve um efeito catalisador, isto é, acelerou a transformação de forma radical. Não creio na inevitabilidade da história, porém muitas transformações eram inevitáveis. A forma como elas se desenrolaram foi, no entanto, fruto das atitudes individuais de todos os envolvidos na política do início do século.

1c) Qual foi o papel do pensamento colonialista no estopim da guerra e depois dela, principalmente nos tratados de paz?

Muito mais que o pensamento colonialista em si, vejo novamente a dicotomia entre o modelo decisório e a realidade (principalmente econômica e social) do início do século. O pensamento colonialista é o reflexo de um processo decisório que diz que a busca pelo poder passa pelo acesso à terra. Em um mundo no qual o poder passava cada vez mais a ser medido pela capacidade de inovação, produção, enfim pelo conhecimento, nações inteiras se mobilizavam para preservar impérios e o controle territorial de grandes partes do globo. 

Neste sentido o pensamento colonialista (obter a maior fração possível da massa de terra disponível no planeta, seja a que custo for) desempenhou um papel chave no estopim da guerra. Mais uma vez, líderes com um processo decisório (uma mentalidade pode-se dizer) típica dos séculos XVIII e XIX, tomando decisões com recursos do século XX. É em poucas palavras a receita para a irresponsabilidade... 

2) Com intenção de desmembrar o Império Otomano, os Britânicos apoiaram a criação de um estado judaico na região onde encontra-se hoje a Palestina e Israel. Por meio da Declaração de Belfourt a diplomacia inglesa apoiava o movimento sionista a criar um estado judaico na região onde encontra-se hoje a palestina e Israel. Além do enfraquecimento do Império Otomano, quais eram a intenções britânicas ao apoiar a causa sionista? E esta ação britânica pode ser considerada o principal fator para o início do conflito que perpetua-se até os dias de hoje entre judeus e árabes?

Esta questão precisa ser vista sob a ótica da diplomacia inglesa para o Oriente Médio, antes durante e depois do conflito. Antes do conflito, os ingleses tinham o foco longe do Oriente Médio. Naquela região, seu interesse concentrava-se no Canal de Suez, o qual era essencial para manter o comércio com a Índia e outras colônias do Extremo Oriente.

Durante a guerra, os ingleses perceberam, a duras penas (em Galipoli e em Kut), que o Homem Doente da Europa (o Império Otomano) seria muito mais difícil de vencer do que se imaginava. De certa forma humilhado, e com seus recursos estressados ao máximo (ao final da guerra 30% do total de Tommies estavam lutando no Oriente Médio), os ingleses procuraram formas de resolver a questão, buscando aliados em diversas frentes, porém sem uma grande coordenação. Mais uma vez, o modelo decisório inadequado aparece com força total. Travando um conflito 100% moderno, em que a coordenação econômica era essencial, a iniciativa diplomática e militar britânica no Oriente Médio mostrou, todas as características de um grupo acostumado às decisões descentralizadas, típicas da forma pela qual o Império Britânico fora gerenciado nos séculos anteriores. 

Primeiro foi delineado o acordo Sykes-Picot, o qual dividia o Oriente Médio em duas esferas de influência uma francesa e outra inglesa. Este acordo foi resultado do entendimento de que um forte aliado militar seria necessário para levar adiante a campanha militar na região. Em paralelo, Sir Henry McMahon, Alto Comissário Britânico no Egito fez uma aproximação com o clã Hachemita, procurando motivar os árabes a uma revolta contra a dominação Otomana em troca da criação de estados árabes independentes na região. Em 1917, buscando aumentar o suporte à Inglaterra nos demais países aliados (em especial Rússia e Estados Unidos) foi feita a Declaração de Balfour (que era Secretário de Assuntos Externos), a qual apoiava a criação na Palestina de uma nação judaica. Parece-me que, pressionados pela realidade de um conflito mundial, o qual estava literalmente empurrando o Império Britânico pela ladeira abaixo, os ingleses decidiram, ainda que de forma descoordenada, resolver a questão da guerra, primeiro, e a qualquer custo, e ver o que podia ser feito depois.

Em resumo, as intenções ao fazer a Declaração de Balfour, eram ligadas ao aumento do suporte a causa britânica entre os aliados. Não creio que a Declaração em si seja a raiz dos conflitos atuais. Ela foi outro elemento que catalisou algo que iria ocorrer de um jeito ou de outro (neste caso a criação do estado de Israel). As consequências para a política atual podem ser vistas na pergunta a seguir.

a) Ainda sobre o desmembramento do Império Otomano: diversos países do Oriente Médio, que hoje vivem em conflito, foram criados após a queda do Império e foram partilhados entre ingleses e franceses, a partir do Acordo Sykes-Picot. Como essa colonização afetou a história desses países? É possível dizer que parte dos conflitos que eles vivem hoje tem relação com o fim da 1ª Guerra?

Falei na pergunta anterior da diplomacia inglesa antes e durante a guerra. Agora é hora de falar do pós-guerra. Já em 1919 os ingleses perceberam que o conflito que começara no carvão tinha terminado no petróleo. Foi o petróleo (seus derivados) que movimentou os tanques e demais meios de transporte que tornaram a vitória possível. Dá para perceber que a retórica da Guerra para Por Fim a Todas as Guerras não durou dois anos depois de 1918, pois já em 1920 falava-se que o petróleo iria decidir o próximo conflito.

Sendo assim, garantir o fornecimento de petróleo passou a ser essencial para a diplomacia inglesa. Some-se isso ao fato de os franceses no final da guerra manterem aprox. 1.000 soldados na região (contra as centenas de milhares de Tommies), os ingleses não tinham a mínima intenção de retornar o Oriente Médio à forma frouxa de controle de antes da guerra, muito menos de cumprir o acordo Sykes-Picot. Ainda assim, o mesmo foi cumprido, no sentido de passar a Síria para o controle francês, porém um problema se interpôs no caminho da influência inglesa no Oriente Médio: a declaração de autodeterminação dos povos do presidente americano Woodrow Wilson, o qual via os acordos do final da guerra (Versalhes é apenas o mais famoso e dizia respeito principalmente à Alemanha, mais existiram muitos em paralelo) como o momento de reescrever a história.

Numa forma que me lembra em muito o nosso famoso Jeitinho Brasileiro, só que aplicado em escala global, os ingleses delinearam uma proposta que definia mandatos para os territórios que tinham sido liberados do controle Otomano (no Oriente Médio) ou Alemão (na África e Extremo Oriente). Existiriam três tipos: o tipo “C” era praticamente uma colônia e foi aplicado no Extremo Oriente, dando passe livre às ambições do Japão, Austrália e Nova Zelândia, o tipo “B” permitia o controle do comércio externo pela Liga das Nações, tendo sido aplicado nas ex-colônias alemãs da África, e o tipo “A” dizia respeito aos povos que estariam próximos da autodeterminação. Foi este o tipo de mandato aplicado ao Oriente Médio. Porém este tipo de mandato contrastava frontalmente com o pensamento britânico para a região, pois os árabes eram considerados incapazes de se autogovernar. A real intenção era a de criar regimes dependentes do poder central (no caso Londres), os quais serviriam para garantir a influência britânica na região e o fornecimento de petróleo em caso de novo conflito.

O desenho da região começava a se delinear. Os franceses ganharam a Síria, dividindo a mesma em duas províncias, uma delas dando origem ao atual Líbano e estabelecendo ali o sistema centralizado com o qual gerenciavam suas colônias. O clã Hashemita, na figura de Feisal, o líder árabe da revolta contra os Otomanos, “ganhou” a Mesopotâmia (atual Iraque). Esta região foi agrupada a partir de três regiões distintas, Basra, Baghdad e Mosul. O irmão de Feisal, Abdullah foi estabelecido na Transjordânia (atual Jordânia), cuja existência foi criada para harmonizar a Declaração de Balfour com o prometido suporte a criação de estados árabes independentes na região. A região que receberia imigrantes de origem judaica ficaria na estreita, porém fértil, faixa de terra que hoje forma o estado de Israel.

Como os estados foram criados a partir de necessidades britânicas ou interesses franceses, a coesão interna nunca foi natural, os mesmos dependendo de regimes artificiais para manterem-se. Estas fraturas aparecem hoje nos conflitos internos do Iraque e na constante intervenção da Síria no Líbano. O interessante é que o estado que poderia ser considerado o menos viável economicamente (a Transjordânia) foi o que se mostrou mais estável no longo prazo. 

3) Após a Guerra, um dos únicos Estados realmente independentes que emergiram foi a Turquia de Mustafá Kemal. O que possibilitou esse fato? A Ária Saudita não se consolidou da mesma maneira e era independente só até certo ponto. Quais eram suas restrições? Isso ocorria devido ao poder britânico na região?

No caso da Turquia, as vitórias em Galipoli e em Kut criaram uma sensação que hoje seria descrita como yes we can na elite turca (a qual gerenciava o Império Otomano). A Turquia, na figura do Império Otomano, sempre esteve em atrito com a Inglaterra, por conta de sua posição estratégica nos estreitos que ligam o Mediterrâneo ao Mar Negro. O fechamento desta passagem foi a causa do colapso russo na Primeira Guerra, pois não tiveram suprimento de armas e munições vindas do Ocidente. Com o fim da guerra, a instalação de um regime comunista na Rússia e o deslocamento do foco britânico para o fornecimento de petróleo via Oriente Médio, entendo que a Inglaterra diminuiu o interesse no controle dos estreitos com o passar dos anos.

A princípio, com Istambul ocupada por forças Aliadas, a intenção original (sempre dentro da forma britânica de gerir seus interesses por meio de proxies) era a de criar um estado grego forte na região. Tanto que a ideia original era a de passar a Trácia (Turquia Européia) para a Grécia.

A revolta turca, liderada por Mustafa Kemal (o qual é idolatrado na Turquia até hoje), instaurou um regime o qual apesar de ditatorial, era republicano e ostensivamente modernizador, o qual procurou inserir a Turquia no contexto internacional como um novo país. Minha opinião: os ingleses já sabiam do que os Turcos, quando motivados eram capazes e não estavam nem um pouco interessados em ter uma espécie de Galipoli-II para resolver. Além disso, o regime turco mostrou-se modernizador no sentido de afastar a Turquia das ambições imperiais de estilo Otomano, ou seja, não pareceu ter ambições externas, em regiões em que não existisse uma população com língua turca (ainda que minoritária) ou fora do que os nacionalistas turcos definiram como Turquia. Em outras palavras: não mostraram interesse em controlar os recém criados Mandatos ingleses no Oriente Médio.

Ao pesar os prós e contras os ingleses parecem ter “deixado rolar” a revolução turca. Custaria caro reprimir, os gregos que deveriam tomar conta do problema foram derrotados, a nova república turca não demonstrou interesse na Mesopotâmia e os estreitos agora davam passagem para um regime comunista na Rússia, não para a antiga aliada, a Rússia Tsarista.

Na Arábia Saudita por outro lado, temos todas as condições invertidas. Era necessário manter um governo cliente de Londres por causa do petróleo, os árabes eram governados a séculos pelos Turcos Otomanos e não existiam instituições capazes de preencher o vazio institucional que a queda do Império Otomano deixara. Sendo assim, mais um governo cliente foi estabelecido. 

4) Durante a Primeira Guerra Mundial, principalmente na Europa, as mulheres tiveram que assumir papeis que antes eram desempenhados por homens. Esse, provavelmente, foi o momento no qual se inciou de forma efetiva a entrada feminina no mercado de trabalho. O senhor acredita que sem a Guerra os movimentos feministas e a mudança no papel da mulher teriam ocorrido no mesmo período? Por quê?

Eu comentei lá na primeira questão um pouco deste assunto. Acho que o motor da entrada feminina no mercado de trabalho foi “ligado” por conta das transformações tecnológicas (e por consequência econômicas) do século XIX. A I Guerra acelerou (e muito) um processo que iria ocorrer ao longo do século XX de uma forma ou de outra. Não tenho como precisar, mas se tivesse que “chutar” diria que ela acelerou o processo de inserção da mulher na sociedade, como um participante ativo (do ponto de vista político e econômico) em pelo menos 20 anos.

b) É possível afirmar que as mulheres conquistaram todos os direitos reivindicados nessa primeira onda do feminismo?

Não. As ditas conquistas foram obtidas de maneira distinta e em momentos distintos nos diversos países. Basta lembrar que o direito a voto das mulheres na Suiça foi obtido apenas, pasme, na década de 70 na maioria dos Cantões (em um dos casos o direito foi obtido em 1990 e através de uma decisão judicial).

No caso dos direitos das mulheres, mais uma vez me veem a mente que a tecnologia e seus efeitos na economia são os fatores que dirigem uma sociedade. O clima para a integração feminina na sociedade como um par em pé de igualdade com os homens já existia na primeira metade do século XX (as duas guerras mundiais garantiram isso). Mas o fator que realmente colocou as relações entre os sexos em pé de igualdade “de fato” foi a invenção da pílula. Não podemos esquecer a “Mãe Natureza” foi assimétrica nas suas escolhas e na reprodução o peso maior recai sobre as mulheres. Porém desde sempre quem decidia quando a esposa iria engravidar era na verdade o marido. Com a pílula (uma inovação tecnológica) esta equação inverteu-se e possibilitou a implementação das mudanças que vemos hoje.

5) Graças à Grande Guerra, inúmeras inovações tecnológicas, principalmente no campo da medicina, foram possíveis. É correto assumir que a Primeira Guerra teve um caráter positivo, mesmo que ela represente a morte de tantas pessoas e a destruição de tantos países?

As guerras tem este efeito. É triste ter de afirmar isso, mas o ser humano precisa de motivação e a maior motivação (a qual esta encravada em nossos genes) é a da sobrevivência. Agora, sua questão é um dos clássicos problemas de moral que são apresentados em cursos de filosofia. Em resumo: não existe resposta perfeita para a mesma. 

O que eu acho é que o mundo atual é o reflexo de todas as lutas e desafios que nossos antepassados tiveram que enfrentar. Não apenas a I Guerra, mas cada uma das vezes em que um antepassado primitivo nosso, lá na savana africana, 500.000, 1 milhão de anos atrás, tentou salvar sua prole de um predador com o uso de um pedaço de osso para se defender, ele estava deixando uma herança positiva para as gerações futuras.

Por outro lado, gostamos de nos considerar superiores aos demais seres vivos do planeta. Se isto é verdade já esta na hora de encontrarmos motivação em coisas mais nobres que a mera sobrevivência.

6) A Grande Guerra foi apenas o começo de um dos séculos mais conturbados da história, marcado por movimentos fascistas e extremismos de outra razão, além de outros conflitos como a Segunda Guerra e a Guerra Fria. Podemos dizer que todos os grandes eventos militares do século XX tiveram raízes no desfecho ou no desenrolar dos anos de 1914 a 1918?

Eu diria que foram influenciados de maneira direta. Mas quanto às suas raízes, entendo que estarão sempre ligadas a economia e como o homem lida com os avanços tecnológicos.

Abraços,

Gustavo

Sunday, February 22, 2015

Commentaries on Willful Ignorance

The basic ideas of the book Willful Ignorance are:

1st) Uncertainty has two dimensions: of doubt and of ambiguity. 

Doubt is a matter that can be directly dealt with probability and statistical testing methods as we know them today. It is a matter of belonging or not to a certain category.

Ambiguity on the other hand is matter of defining the correct categories where the data should be classified (or not). 

Doubt is the territory of researchers and Ambiguity pertains to the practitioners in general. In other words: Ambiguity deals with finding the correct question. Doubt is our measure of certainty that our answer is right. On the other hand, we must remind ourselves that it is better to have an imperfect answer for a correct question than a perfect answer for the wrong question.


2nd) The statistical methods available today were developed in an era of Small Data. At that time (which is not so far from us in the history, for instance ,in the first and most of second half of XX century) a lot of work was done before a small table, with let´s say a thousand numbers put together. The ambiguity should be resolved by the time the table was finished. Therefore it was ready for statistical analysis as we know them today (hypothesis testing for instance). In this case, all was left was to solve the doubt issues.

Nowadays we live in an era of Big Data where large chunks of bits and bytes can be produced each second. In this world, lots of relationships will appear between the data pieces themselves, BUT, most of them will have been produced by noise not by real relationships. In this brave new world validation techniques are so important as the statistical techniques that we have used to far.

3rd) All these techniques will try to provide a new kind of validation that will come from replication of the results. The first proposal is to separate the data in at least two subsets: learning and testing. In the learning sub-set it would be applied the statistical techniques to get, for instance, the regression coefficients of a model. These models would than be put to test in a different sub-set (the so called testing set) and the results would than be confirmed or not.

I´d say that you could devise a meta-technique which would start dividing the whole group of data in several sub-sets (for instance ten). Each of them would generate a model (a linear regression model for instance) and their coefficients would be recorded creating another table. The data in this second table could than be subjected to a new hypothesis testing where we would try finding evidence that they are different from each other. In case we could not prove this difference (for instance with an ANOVA test) we would proceed for a second round of validation where each model would have its prediction power tested against the other (in this case nine) sub-sets. 

At this moment I can´t provide a numerical rule of thumb for approving (or not) a model based on this approach, but this can be the basis for a research program on validation techniques

4th) Other approaches that were mentioned n-fold cross validation, bootstrap and jackknife approaches. I would add Monte Carlo Simulation, although I´m not in the position (right now) of providing methodological guidelines for using Monte Carlo Simulation in validation designs.

Good luck, so far,

Gustavo,

Reading List on The Foundations of Probability and The Origins of Statistics

I have finished reading Willful Ignorance from Herbert Eisberg. From this book I got an interesting reading list in the subject of probability and the challenges that statistical techniques are now facing in the era of Big Data.

The reading list is composed of the following books:

  1. Laplace - Theorie Analytique des Probabilities. Considered by many as the first modern author in the field of probability, this book introduces the classical notion of probability as the measure of our uncertainty, but more important, solidifies the idea that a probability is the ratio between the successes and the total number of occurrences (good or bad) instead the old notion (from before the XVIII century) that used the odds ratio. 
  2. Keynes - A Treatise on Probability. An interesting approach on the epistemological basis of probability. 
  3. Andrei Kolmogorov - Foundations of The Theory of Probability. THE Text if you want to delve deeper in the mathematical foundations of probability. I noticed that he establishes his theory based on set theory and presents several of his ideas with Lebesgue Integrals. Both subjects are a must if you want to understand modern quantitative financial theory. 
  4. Student (1908). The probable error of a mean. Biometrika, 6: 1–25; - Very important paper, because it establishes the mathematical basis for the so called Student Distribution. It is interesting specially from a methodological perspective, for a researcher so it can be understood how a continuous probability distribution was discovered.
  5. Student, Probable error of a correlation coefficient. Biometrika, 6: 302–310 - Same as above. On the other hand I was not able to easily locate this paper like the previous one that can be downloaded from a myriad of sites.
  6. Stephen M. Stigler (1986a). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard University Press, Part 1, pp. 1–139. - It gives an important view on the development of Gauss ideas that lead to the least square method and the gaussian (normal) curve. I will try fqllowing the presentation in this book to better understand the mathematical foundations of the gaussian curve. In other words: how it was discovered. 
  7. Ronald A. Fisher (1925). Statistical Methods for Research Workers. - Very important because it gives an idea on the origin of the p-value and the so called factorial designs.
  8. Karl Pearson (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5, 50: 157–175. - It provides an understanding on the Chi-Squared distribution and the research problems that leaded to it.
  9. John W. Tukey (1977). Exploratory Data Analysis. Reading, MA: Addison–Wesley.
  10. John P. A. Ioannidis (2005). Why most published research findings are false. PloS Medicine,
  11. Gary King (1995). Replication, replication, replication. Political Science and Politics, 28: 443–499
The order for me will be 1st) Kolmogorov, 2nd) Stiegler, 3rd) Pearson, 4th) Student, 5th) Fisher

So far so good.

Tuesday, February 10, 2015

Installing MADlib Library Adventure

After several days trying (and I must say learning a lot) I finally got to the commands necessary to install MADlib.

1st) My first attempt was done using the pgxn client (postgre extensible network client).

First you need to make sure that Ubuntu is updated. To do so, open a terminal (CTRL+T) and type the following command: sudo apt-get update

Next you need to install PostgreSQL itself. If it has not been installed yet, you can do so, by typing the command: sudo apt-get install postgresql. After that install cmake, which is (I think) a compiling program, and plpython, which will provide python support for postgresql, postgresql development server, libkrb5, a development library and pgxn client, a client for postgre extensible network. All of that can be acomplished with the following sequence of commands:
          sudo apt-get install -y cmake
          sudo apt-get install -y postgresql-server-dev-9.3
  sudo apt-get postgresql-plpython-9.3
         sudo apt-get install -y libkrb5-dev
  sudo apt-get pgxnclient

Having finished all of that, install madlib using pgxn. Pgxn handles the
configuration, compilation and installation parts. All of that can be done by
just typing sudo pgxn install madlib.

After that, start the PgadminIII interface, conect to your DB (in my case it was mydb), start the PSQL Console and type the commands: create extension plpythonu; Create a new user (besides the superuser which is created by default) and try issuing the command (on PSQL console): create extension madlib; 

In case the last command (create extension plpythonu) doesn´t work (on the PSQL Console), go to a terminal and type: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb  install. This is the madpack command. It is needed to register madlib with your Postgre databse. Finally to confirm that everything is ok, test your installation with the command: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb install-check.

Using this approach I got to the create extension madlib  part. This command didn´t run because I was not aware of the need to link externally the madlib library with my database, using the madpack application. Since I was left with no install I decided to install MADlib from source. 

2nd) This time we´re going to download, get the dependencies, compile and install MADlib from source. To do so, proceed as follows:

Set up the environment:  sudo apt‐get install build‐essential checkinstall  
sudo apt‐get install cvs subversion git‐core mercurial
sudo apt‐get ‐y install m4 gcc‐4.6 g++‐4.6 g++
OBS: what is   git clone git@github.com:madlib/madlib.git
wget Page on Github
Make a personal directory to receive the sources, and make sure you have proper rights in it:
sudo chown $USER /usr/local/rc
sudo chmod u+rwx /usr/local/src

Download MADlib 1.7.0 source from www.madlib.net in /home/gustavo/downloads and copy the .tar.gz or .tar.gz2 to /usr/local/src
Unpack the .tar.gz or .tar.gz2 file: tar ‐xzvf file.tar.gz OR tar ‐xjvf file.tar.bz2 and change to the new subdirectory: cd madlib-1.7.0 
Now comes the first programming part: test the dependencies with ./configure until there are no more missing libraries. For each error that is found, download and install the correspondent library. For instance if ./configure detects that the library named namelibtool is missing, you can install it with: sudo apt-get install namelibtool. You can also try sudo apt-get build dep command to try downloading all dependencies at once that are needed by command.
When there is no more errors reported by ./configure change to the ./build directory (cd build) and start compiling the source by typing: make

Having compiled the source, you need to install it. Some sites tell you to install with sudo make install but this way of installing is being abandoned in favor of sudo checkinstall or sudo checkinstall ‐‐fstrans=0 in case the first command fails. Using checkinstall is preferred, because this way the package can be managed by Synaptics Package Manager.
The plpython extension can than be created in the terminal itself by: createlang plpythonu db. Finally type: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb  install to created the madlib extension in your postgre database and check if everything went well by typing: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb install-check.

As a final note, keep in mind that you can connect to a Postgre db and start the PSQL Command Line in the terminal itself by typing: 
sudo su ‐ postgres - connect to a database
psql - starts the PSQL command prompt
postgres=# alter role postgres with password 'postgres'; - adds a password to a role (db user)
postgres=# alter role postgres with password null; - removes a password from a role (db user)

Other tips:
To unlock a database:
sudo rm /var/lib/dpkg/lock
sudo dpkg --configure -a

To remove an installation made with make install:
sudo aptitude install checkinstall
sudo make; sudo checkinstall - this will create a .deb package
Uninstall the .deb and you're done.
To initialize Postgre from command line and get to the PSQL command prompt, without starting PGAdminIII:
sudo su ‐ postgres - connect to a database psql - starts the PSQL command prompt postgres=# alter role postgres with password 'postgres';
- adds a password to a role (db user) postgres=# alter role postgres with password null;
- removes a password from a role (db user)

Best regards,

Gustavo


Environment Structure Review (Post in Brazilian Portuguese)

Ambiente de Trabalho:
Máquina Virtual Ubuntu com R, RStudio, pacotes ggplot2 e RODBC, Python Eric e Plpython, PostgreSQL, MADlib e Hadoop    

Estrutura do Curso:

Exercícios:
                        1º) em Excel,
                        2º) em R,
                        3º) em R carregando do Excel,
                        4º) em R carregando de um Postgresql,
                        5º) exportar de um DB (via SQL),
                        6º) importar de um DB (via Python),
                        7º ) executar in-db analytics (MADLIB),
                        8º) ensinar no HADOOP

 Técnicas: (em Excel e R):
                         1º) Estruturas de dados básicas (apenas em R),
                         2º) Teste de Hipóteses,
                         3º) ANOVA,
                         4º) Visualização,
                         5º) K-means clustering,
                         6º) Regras de associação,
                         7º) Regressão Linear simples e múltipla,
                         8º) Regressão Logística,
                         9º) Naive Bayes (apenas em R),
                        10º) Árvores de Decisão,
                        11º) Séries Temporais,
                        12º) Análise Textual (apenas em R)

 Bancos de Dados:
           1º) Gerar as bases de dados no Postgresql: retail data, census data
           2º) Seguir lab e/ou tutorial do Postgresql que existe na WEB
           3º) Extrações do Postgresql para análise no R
           4º) MADlib para gerar analytics in-db (com R & Postgresql)
           5º) HADOOP / MAPREDUCE & Python (????)

 Possíveis aplicações nos cases de marketing transferidos

Monday, February 9, 2015

Sharing of folders between Windows Host and Ubuntu Guest and other tricks (Post in Brazilian Portuguese)

04/02/2015

Para compartilhar pasta entre Windows e Ubuntu
No Oracle Virtual Box Windows :  selecione a máquina virtual em uso, vá em pastas compartilhadas, escolha o caminho no Windows a ser compartilhado e anote o NOME DA PASTA que foi atribuido a este diretório windows. No caso do meu computador vou compartilhar c:\Uses\Gustavo\Downloads com o nome "Downloads".

No Ubuntu: vá para o diretório media e crie um diretório para ser o diretório de compartilhamento. No meu caso eu escolhi do diretório /media/windows-share
cd /media
sudo mkdir windows-share
sudo mount -t vboxsf Downloads /media/windows-share

Para listar todos os conteúdos de um diretório no Ubuntu
sudo ls -lha /media/windows-share

Para remover o diretório e todo o conteúdo
sudo rm -r -f /media/windos-share

Para descobrir a versão do PostgreSQL
psql --version (no meu caso hoje é a 9.3.5)

Para descobrir a versão do Ubuntu
applications->details (no meu caso hoje é 14.04) (64bits)
fiz o download de atualizações novas e instalação de todas as disponíveis

Para detectar meu IP externo
WHAT´S MY IP ADDRESS no google

Para detectar meu IP local
CMD, ipconfig, procurar por ipv4.address. por ex., na rede VPN meu ip é 10.252.35.119.

Para acessar a VM Horton a partir da VM Ubuntu
Utilizar o ip indicado local, por ex:10.252.35.119 na porta 8888. 
Sendo DHCP, deve-se descobrir o ip da máquina a cada conexão.

Para abrir o terminal de comandos
CTRL+ALT+T

Para passar do modo tela cheia para o modo janela
CTRL+F

Para rodar o Ubuntu de um drive externo no Samsung Ativ 6
    System setup (F2) :
    Fastboot DISABLED
    Secure Boot DISABLED
    Method UEFI OS
    Boot sequence: Pendrive, External HD, Windows

    Loader script:
    Press "e" to edit
    Change "quiet splash" to "nomodeset"
    Press F10 to boot

    OU
    CTRL+ALT+T
    sudo gedit /etc/default/grub
    Change "quiet splash" to "nomodeset" and save
    update grub (will update  /boot/grub/grub.cfg)


    When running Ubuntu ALWAYS change the loader script, otherwise, system will not run

Para realizar o setup do PostgreSQL
     sudo -u postgres psql postgres (get into postgres)
     \password postgres (request a new password)
     CTRL+D (get out of postgres prompt)
     sudo -u postgres createdb mydb (creates first db)
     sudo apt-get install postgresql-contrib (administrative package)
     sudo -u postgres psql (will get into postgres again)

     CREATE EXTENSION adminpack


Tuesday, February 3, 2015

Important Quant Professionals, Journals and Pages that I should follow

Here is a list of important quants professionals that I have got from the web:
  1. Alex Lipton/Leif Anderson (BAML)
  2. Bruno Dupire/Fabio Mercurio (Bloomberg)
  3. Daniel Nehren (JP Morgan)
  4. David Li (AIG)
  5. Ezra Nahum (Goldman Sachs)
  6. Lorenzo Bergomi (Société Générale)
  7. Peter Carr (Morgan Stanley)
  8. Vladimir Piterbarg (Barclays)
To follow their ideas, just google the names mentioned above and enjoy the ride!

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
The journals that I´m currently trying to follow, reading and studying the papers are (specially because they are avaiable in pdf format to me):

  1. Finance and Stochastics (from Springer) http://link.springer.com/journal/780
  2. Computational Economics (from Springer) http://link.springer.com/journal/10614

Journals that I should follow, but will most certainly not have enough time to read and study the articles in full detail (alphabetical order):
  1. Applied Financial Economics Letters
  2. Applied Mathematical Finance
  3. Journal of Simulation - http://www.palgrave-journals.com/jos/journal/v8/n4/index.html
  4. The Journal of Computational Finance - http://www.risk.net/type/journal/source/journal-of-computational-finance. I should follow this one more closely BUT it is now avaiable (to me) in pdf format, only in paper, so I will end up not reading it. 
  5. The Journal of Derivatives - http://www.iijournals.com/toc/jod/current
Regarding pages where can be found interesting research (that unfortunatelly I will also not follow more closely) it can be mentioned:
  1. prof.Edson de O.Pamplona page on Unifei - Interesting website with articles on cost analysis - http://www.iepg.unifei.edu.br/edson/pesquisa.htm#producao.
  2. prof.Petr Dostál website on Decision Making, Soft Computing and Fuzzy Logic - Nice collection of papers on quantitative methods applied to decision making. Special notice on fuzzy logic applications, but also some papers on chaos theory.
  3. Yale´s prof.Shyam Sunder course description on Experimental Economicshttp://http://faculty.som.yale.edu/shyamsunder/ExperimentalEconomics/Expecon2008Fall.html
  4. Van Kurt Blog - with an interesting page on simulation of correlated and uncorrelated variables - https://kurtverstegen.wordpress.com/2013/12/07/simulation/
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
Flows in Railway Optimization
If I ever write a paper about the history of Operations Research...

...I must not forget this paper: Flows in railway optimization, by Alexander Schrijver. The paper can be found at: http://homepages.cwi.nl/~lex/files/flows_in_ro.pdf

And besides this, if I keep my sources in the Netherlands I should not forget the Amsterdan Optimization Group (http://amsterdamoptimization.com/).

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
An interesting free add-in for Excel: NtRand. It has a complex set of random numbers generator based in the Mersenne´s Algorithm. It can be found in http://www.ntrand.com/documentation/. Although I mainly use R or Palisade's @RISK to generate random numbers, this is an alternative to the standard ALEATÓRIO() function (in Excel´s PT-BR).

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------