Wednesday, February 25, 2015

Non Big Data Post - Causas e Consequências da I Guerra Mundial (Post in Brazilian Portuguese)

Variando um pouco de assunto: um dos meus hobbies de leitura é o tema I Guerra Mundial e a diplomacia no século XIX e início do século XX. A este respeito dei uma entrevista (por e-mail) para o Jornal Contraponto, dos alunos do curso de Jornalismo da PUC-SP. Trechos da mesma foram publicados na edição no.94 de setembro de 2014. A edição pode ser lida em formato digital no endereço: http://issuu.com/jornal.contraponto/docs/cp94.2014. Agradeço ao meu colega Prof.Montoya pela indicação para a entrevista.

Transcrevo abaixo as perguntas e respostas na íntegra:

Respostas enviadas para Manoela Smith, Jornalismo, PUC-SP, Jornal Contraponto. manoellasmith@gmail.com

1) Na sua opinião, quais foram as maiores consequências da Primeira Guerra? 

  - No campo político foi o início da mudança da Europa para a América e Ásia do centro decisório da política internacional. A preeminência dos Estados Unidos (no hemisfério ocidental) e do Japão (no hemisfério oriental) começou a ser percebida (ainda que desdenhada) ao final do conflito na conferência de Versalhes.

Este desdém, por parte da Inglaterra e da França, levou tanto a alienação do Japão (o que criaria ressentimentos que teriam graves consequências internas na política japonesa, as quais levariam em última análise a aventura expansionista de 1941) quanto a nulidade de efeito da iniciativa de autodeterminação do presidente americano Woodrow Wilson.

Falarei mais adiante de uma dicotomia entre os modelos decisórios utilizados pelos líderes políticos em 1914 e os meios materiais e sociais a sua disposição. Pois bem, em 1918, esta dicotomia entre a forma de pensar dos líderes e as realidades impostas por um mundo que havia mudado rapidamente ao final do século XIX, levaram os mesmos a cometer erros crassos, muitas vezes simplórios. Ao ler os relatos das discussões realizadas em Versalhes me parece que Clemenceau e Loyd George pensavam estar na verdade em Viena, em 1815.  

- No campo econômico foi a mudança de foco da conquista de espaço geográfico para uma época em que o poder passou a ser medido por níveis de influência, seja ela econômica, seja ela cultural. E esta influência passou a ser, cada vez mais, definida pelo nível de inovação, conhecimento produzido na sociedade. Pode-se dizer que os avanços tecnológicos do século XIX e início do século XX catalisaram uma mudança econômica que levou, nos dias atuais, a chamada sociedade do conhecimento. 

Por outro lado, as lideranças políticas do início do século tiveram sua formação no século XIX e em contato com ideias que vinham muitas vezes do século XVIII. Este hiato, ou talvez fosse melhor dizer esta incompreensão do que ocorria na sociedade foi o causador da brutalidade desencadeada em Julho de 1914. Minha impressão é que os líderes, tanto políticos quanto militares no início do século não perceberam o quanto o interior de suas sociedades tinha mudado desde que eles iniciaram suas carreiras. 

As decisões daqueles fatídicos anos do início do século e daquele infeliz mês de Julho/Agosto de 1914 mostram claramente políticos pensando em conflitos, tal como se pensava até a Guerra Civil Americana (ou a Guerra da Criméia), quando o conflito em si era considerado um affair dos militares e que muitas vezes passava despercebido pela grande maioria da população.  

Um exemplo que gosto de citar (infelizmente esqueci a fonte) é um relato da batalha de Waterloo. No texto que li muitos anos atrás, uma senhora reclamou que seus lençóis haviam ficado sujos por causa da grande quantidade de cavalos, os quais para ela sem razão aparente tinham passado pelo seu campo naquela manhã. Veja: uma das mais importantes batalhas do mundo ocidental, a qual iria definir o destino da Europa por 100 anos, estava ocorrendo praticamente no quintal desta singela senhora e ela não sabia nem que um conflito ocorria no interior do seu país.

Cem anos depois, os descendentes desta mesma senhora, estavam lutando todos, de um lado ou de outro, em outros campos não muito longe dali (no Marne, em Verdun ou no Somme), em um número impossível de ser imaginado no início do século XIX e todos motivados por ideais que cem anos antes eram entendidos (se é que eram) apenas pelos oficiais ou os grandes líderes políticos.

O que os líderes em geral não entenderam foi que mobilizar grandes volumes de pessoas, com tecnologias infinitamente mais letais, as quais requeriam uma coordenação econômica jamais vista para ser posta em ação, era radicalmente distinto de mobilizar pequenos grupos de soldados (quando pensamos em termos proporcionais à população total) e coloca-los em ação com objetivos muitas vezes paroquiais.

Em resumo: ninguém, em especial as lideranças políticas, tinha ideia do que seria o conflito, porque seu mindset ainda estava nos séculos XVIII e XIX. Esta dicotomia entre o modelo e a realidade levou sem sombra de dúvida às irresponsáveis decisões de Julho de 1914 e dos primeiros anos de guerra o que foi eufemisticamente chamado pelo principal comandante inglês (William Haig) de curva do aprendizado do seu exército. Um aprendizado realizado ao custo de, por exemplo, 20.000 Tommies só na primeira manhã da ofensiva do Somme em 1916.  Ou pela decisão do comandante alemão na frente ocidental (Falkenhayn) de sangrar a França até a morte na ofensiva de Verdun, também em 1916.

- No campo social, foi o estabelecimento de um vácuo de poder, causado pela ausência de homens nas atividades do cotidiano, nas economias centrais, o que foi preenchido por minorias (em especial o público feminino), as quais obtiveram, mantiveram e expandiram seus direitos por causa da guerra. O exemplo típico desta situação é o do sufrágio universal nas democracias ocidentais (notadamente Inglaterra e França). Por causa da enorme quantidade de homens que foram deslocados para as frentes de combate, as mulheres obtiveram um espaço no ambiente produtivo, o que levou rapidamente ao final da guerra (na Inglaterra) ao direito ao voto, ao trabalho e a independência, pessoal e financeira. Além disso, as massas de soldados que foram mobilizadas em nome de um ideal, ao retornarem dos campos de batalha, exigiram participação nas decisões políticas, o que levou ao sufrágio universal (na Inglaterra e França). Isto trouxe profundas consequências na forma como as democracias ocidentais passaram a ser geridas. 

1b) Algumas delas refletem no mundo até hoje?

- Com certeza, muitas das características da nossa época foram forjadas pelos quatro anos de loucura que tomou conta do mundo entre 1914-1918. Como foi dito acima, as mudanças sociais e políticas foram aceleradas pelo conflito.  Penso no conflito como um catalisador de uma enorme quantidade de mudanças que iriam ocorrer de uma forma ou de outra. A maneira exata em que elas ocorreram é que foi definida pelo conflito (em especial pela sua escala e brutalidade).

Teorizando um pouco mais, entendo que as mudanças sociais no seu fundo são provocadas por alterações na ordem econômica. Sem ser Marxista, ou advogar causas de esquerda, creio que Marx acertou em cheio ao dizer que a economia é o fundamento de todas as regras sociais. Pois bem, a tecnologia (a grande causadora de mudanças econômicas) havia progredido mais no século XIX do que em toda a história da humanidade. É natural (hoje) entender que o mundo tinha se alterado de maneira radical. Sendo assim, as transformações sociais iriam ocorrer de uma forma ou de outra. A I Guerra tendo sido travada do jeito que foi, teve um efeito catalisador, isto é, acelerou a transformação de forma radical. Não creio na inevitabilidade da história, porém muitas transformações eram inevitáveis. A forma como elas se desenrolaram foi, no entanto, fruto das atitudes individuais de todos os envolvidos na política do início do século.

1c) Qual foi o papel do pensamento colonialista no estopim da guerra e depois dela, principalmente nos tratados de paz?

Muito mais que o pensamento colonialista em si, vejo novamente a dicotomia entre o modelo decisório e a realidade (principalmente econômica e social) do início do século. O pensamento colonialista é o reflexo de um processo decisório que diz que a busca pelo poder passa pelo acesso à terra. Em um mundo no qual o poder passava cada vez mais a ser medido pela capacidade de inovação, produção, enfim pelo conhecimento, nações inteiras se mobilizavam para preservar impérios e o controle territorial de grandes partes do globo. 

Neste sentido o pensamento colonialista (obter a maior fração possível da massa de terra disponível no planeta, seja a que custo for) desempenhou um papel chave no estopim da guerra. Mais uma vez, líderes com um processo decisório (uma mentalidade pode-se dizer) típica dos séculos XVIII e XIX, tomando decisões com recursos do século XX. É em poucas palavras a receita para a irresponsabilidade... 

2) Com intenção de desmembrar o Império Otomano, os Britânicos apoiaram a criação de um estado judaico na região onde encontra-se hoje a Palestina e Israel. Por meio da Declaração de Belfourt a diplomacia inglesa apoiava o movimento sionista a criar um estado judaico na região onde encontra-se hoje a palestina e Israel. Além do enfraquecimento do Império Otomano, quais eram a intenções britânicas ao apoiar a causa sionista? E esta ação britânica pode ser considerada o principal fator para o início do conflito que perpetua-se até os dias de hoje entre judeus e árabes?

Esta questão precisa ser vista sob a ótica da diplomacia inglesa para o Oriente Médio, antes durante e depois do conflito. Antes do conflito, os ingleses tinham o foco longe do Oriente Médio. Naquela região, seu interesse concentrava-se no Canal de Suez, o qual era essencial para manter o comércio com a Índia e outras colônias do Extremo Oriente.

Durante a guerra, os ingleses perceberam, a duras penas (em Galipoli e em Kut), que o Homem Doente da Europa (o Império Otomano) seria muito mais difícil de vencer do que se imaginava. De certa forma humilhado, e com seus recursos estressados ao máximo (ao final da guerra 30% do total de Tommies estavam lutando no Oriente Médio), os ingleses procuraram formas de resolver a questão, buscando aliados em diversas frentes, porém sem uma grande coordenação. Mais uma vez, o modelo decisório inadequado aparece com força total. Travando um conflito 100% moderno, em que a coordenação econômica era essencial, a iniciativa diplomática e militar britânica no Oriente Médio mostrou, todas as características de um grupo acostumado às decisões descentralizadas, típicas da forma pela qual o Império Britânico fora gerenciado nos séculos anteriores. 

Primeiro foi delineado o acordo Sykes-Picot, o qual dividia o Oriente Médio em duas esferas de influência uma francesa e outra inglesa. Este acordo foi resultado do entendimento de que um forte aliado militar seria necessário para levar adiante a campanha militar na região. Em paralelo, Sir Henry McMahon, Alto Comissário Britânico no Egito fez uma aproximação com o clã Hachemita, procurando motivar os árabes a uma revolta contra a dominação Otomana em troca da criação de estados árabes independentes na região. Em 1917, buscando aumentar o suporte à Inglaterra nos demais países aliados (em especial Rússia e Estados Unidos) foi feita a Declaração de Balfour (que era Secretário de Assuntos Externos), a qual apoiava a criação na Palestina de uma nação judaica. Parece-me que, pressionados pela realidade de um conflito mundial, o qual estava literalmente empurrando o Império Britânico pela ladeira abaixo, os ingleses decidiram, ainda que de forma descoordenada, resolver a questão da guerra, primeiro, e a qualquer custo, e ver o que podia ser feito depois.

Em resumo, as intenções ao fazer a Declaração de Balfour, eram ligadas ao aumento do suporte a causa britânica entre os aliados. Não creio que a Declaração em si seja a raiz dos conflitos atuais. Ela foi outro elemento que catalisou algo que iria ocorrer de um jeito ou de outro (neste caso a criação do estado de Israel). As consequências para a política atual podem ser vistas na pergunta a seguir.

a) Ainda sobre o desmembramento do Império Otomano: diversos países do Oriente Médio, que hoje vivem em conflito, foram criados após a queda do Império e foram partilhados entre ingleses e franceses, a partir do Acordo Sykes-Picot. Como essa colonização afetou a história desses países? É possível dizer que parte dos conflitos que eles vivem hoje tem relação com o fim da 1ª Guerra?

Falei na pergunta anterior da diplomacia inglesa antes e durante a guerra. Agora é hora de falar do pós-guerra. Já em 1919 os ingleses perceberam que o conflito que começara no carvão tinha terminado no petróleo. Foi o petróleo (seus derivados) que movimentou os tanques e demais meios de transporte que tornaram a vitória possível. Dá para perceber que a retórica da Guerra para Por Fim a Todas as Guerras não durou dois anos depois de 1918, pois já em 1920 falava-se que o petróleo iria decidir o próximo conflito.

Sendo assim, garantir o fornecimento de petróleo passou a ser essencial para a diplomacia inglesa. Some-se isso ao fato de os franceses no final da guerra manterem aprox. 1.000 soldados na região (contra as centenas de milhares de Tommies), os ingleses não tinham a mínima intenção de retornar o Oriente Médio à forma frouxa de controle de antes da guerra, muito menos de cumprir o acordo Sykes-Picot. Ainda assim, o mesmo foi cumprido, no sentido de passar a Síria para o controle francês, porém um problema se interpôs no caminho da influência inglesa no Oriente Médio: a declaração de autodeterminação dos povos do presidente americano Woodrow Wilson, o qual via os acordos do final da guerra (Versalhes é apenas o mais famoso e dizia respeito principalmente à Alemanha, mais existiram muitos em paralelo) como o momento de reescrever a história.

Numa forma que me lembra em muito o nosso famoso Jeitinho Brasileiro, só que aplicado em escala global, os ingleses delinearam uma proposta que definia mandatos para os territórios que tinham sido liberados do controle Otomano (no Oriente Médio) ou Alemão (na África e Extremo Oriente). Existiriam três tipos: o tipo “C” era praticamente uma colônia e foi aplicado no Extremo Oriente, dando passe livre às ambições do Japão, Austrália e Nova Zelândia, o tipo “B” permitia o controle do comércio externo pela Liga das Nações, tendo sido aplicado nas ex-colônias alemãs da África, e o tipo “A” dizia respeito aos povos que estariam próximos da autodeterminação. Foi este o tipo de mandato aplicado ao Oriente Médio. Porém este tipo de mandato contrastava frontalmente com o pensamento britânico para a região, pois os árabes eram considerados incapazes de se autogovernar. A real intenção era a de criar regimes dependentes do poder central (no caso Londres), os quais serviriam para garantir a influência britânica na região e o fornecimento de petróleo em caso de novo conflito.

O desenho da região começava a se delinear. Os franceses ganharam a Síria, dividindo a mesma em duas províncias, uma delas dando origem ao atual Líbano e estabelecendo ali o sistema centralizado com o qual gerenciavam suas colônias. O clã Hashemita, na figura de Feisal, o líder árabe da revolta contra os Otomanos, “ganhou” a Mesopotâmia (atual Iraque). Esta região foi agrupada a partir de três regiões distintas, Basra, Baghdad e Mosul. O irmão de Feisal, Abdullah foi estabelecido na Transjordânia (atual Jordânia), cuja existência foi criada para harmonizar a Declaração de Balfour com o prometido suporte a criação de estados árabes independentes na região. A região que receberia imigrantes de origem judaica ficaria na estreita, porém fértil, faixa de terra que hoje forma o estado de Israel.

Como os estados foram criados a partir de necessidades britânicas ou interesses franceses, a coesão interna nunca foi natural, os mesmos dependendo de regimes artificiais para manterem-se. Estas fraturas aparecem hoje nos conflitos internos do Iraque e na constante intervenção da Síria no Líbano. O interessante é que o estado que poderia ser considerado o menos viável economicamente (a Transjordânia) foi o que se mostrou mais estável no longo prazo. 

3) Após a Guerra, um dos únicos Estados realmente independentes que emergiram foi a Turquia de Mustafá Kemal. O que possibilitou esse fato? A Ária Saudita não se consolidou da mesma maneira e era independente só até certo ponto. Quais eram suas restrições? Isso ocorria devido ao poder britânico na região?

No caso da Turquia, as vitórias em Galipoli e em Kut criaram uma sensação que hoje seria descrita como yes we can na elite turca (a qual gerenciava o Império Otomano). A Turquia, na figura do Império Otomano, sempre esteve em atrito com a Inglaterra, por conta de sua posição estratégica nos estreitos que ligam o Mediterrâneo ao Mar Negro. O fechamento desta passagem foi a causa do colapso russo na Primeira Guerra, pois não tiveram suprimento de armas e munições vindas do Ocidente. Com o fim da guerra, a instalação de um regime comunista na Rússia e o deslocamento do foco britânico para o fornecimento de petróleo via Oriente Médio, entendo que a Inglaterra diminuiu o interesse no controle dos estreitos com o passar dos anos.

A princípio, com Istambul ocupada por forças Aliadas, a intenção original (sempre dentro da forma britânica de gerir seus interesses por meio de proxies) era a de criar um estado grego forte na região. Tanto que a ideia original era a de passar a Trácia (Turquia Européia) para a Grécia.

A revolta turca, liderada por Mustafa Kemal (o qual é idolatrado na Turquia até hoje), instaurou um regime o qual apesar de ditatorial, era republicano e ostensivamente modernizador, o qual procurou inserir a Turquia no contexto internacional como um novo país. Minha opinião: os ingleses já sabiam do que os Turcos, quando motivados eram capazes e não estavam nem um pouco interessados em ter uma espécie de Galipoli-II para resolver. Além disso, o regime turco mostrou-se modernizador no sentido de afastar a Turquia das ambições imperiais de estilo Otomano, ou seja, não pareceu ter ambições externas, em regiões em que não existisse uma população com língua turca (ainda que minoritária) ou fora do que os nacionalistas turcos definiram como Turquia. Em outras palavras: não mostraram interesse em controlar os recém criados Mandatos ingleses no Oriente Médio.

Ao pesar os prós e contras os ingleses parecem ter “deixado rolar” a revolução turca. Custaria caro reprimir, os gregos que deveriam tomar conta do problema foram derrotados, a nova república turca não demonstrou interesse na Mesopotâmia e os estreitos agora davam passagem para um regime comunista na Rússia, não para a antiga aliada, a Rússia Tsarista.

Na Arábia Saudita por outro lado, temos todas as condições invertidas. Era necessário manter um governo cliente de Londres por causa do petróleo, os árabes eram governados a séculos pelos Turcos Otomanos e não existiam instituições capazes de preencher o vazio institucional que a queda do Império Otomano deixara. Sendo assim, mais um governo cliente foi estabelecido. 

4) Durante a Primeira Guerra Mundial, principalmente na Europa, as mulheres tiveram que assumir papeis que antes eram desempenhados por homens. Esse, provavelmente, foi o momento no qual se inciou de forma efetiva a entrada feminina no mercado de trabalho. O senhor acredita que sem a Guerra os movimentos feministas e a mudança no papel da mulher teriam ocorrido no mesmo período? Por quê?

Eu comentei lá na primeira questão um pouco deste assunto. Acho que o motor da entrada feminina no mercado de trabalho foi “ligado” por conta das transformações tecnológicas (e por consequência econômicas) do século XIX. A I Guerra acelerou (e muito) um processo que iria ocorrer ao longo do século XX de uma forma ou de outra. Não tenho como precisar, mas se tivesse que “chutar” diria que ela acelerou o processo de inserção da mulher na sociedade, como um participante ativo (do ponto de vista político e econômico) em pelo menos 20 anos.

b) É possível afirmar que as mulheres conquistaram todos os direitos reivindicados nessa primeira onda do feminismo?

Não. As ditas conquistas foram obtidas de maneira distinta e em momentos distintos nos diversos países. Basta lembrar que o direito a voto das mulheres na Suiça foi obtido apenas, pasme, na década de 70 na maioria dos Cantões (em um dos casos o direito foi obtido em 1990 e através de uma decisão judicial).

No caso dos direitos das mulheres, mais uma vez me veem a mente que a tecnologia e seus efeitos na economia são os fatores que dirigem uma sociedade. O clima para a integração feminina na sociedade como um par em pé de igualdade com os homens já existia na primeira metade do século XX (as duas guerras mundiais garantiram isso). Mas o fator que realmente colocou as relações entre os sexos em pé de igualdade “de fato” foi a invenção da pílula. Não podemos esquecer a “Mãe Natureza” foi assimétrica nas suas escolhas e na reprodução o peso maior recai sobre as mulheres. Porém desde sempre quem decidia quando a esposa iria engravidar era na verdade o marido. Com a pílula (uma inovação tecnológica) esta equação inverteu-se e possibilitou a implementação das mudanças que vemos hoje.

5) Graças à Grande Guerra, inúmeras inovações tecnológicas, principalmente no campo da medicina, foram possíveis. É correto assumir que a Primeira Guerra teve um caráter positivo, mesmo que ela represente a morte de tantas pessoas e a destruição de tantos países?

As guerras tem este efeito. É triste ter de afirmar isso, mas o ser humano precisa de motivação e a maior motivação (a qual esta encravada em nossos genes) é a da sobrevivência. Agora, sua questão é um dos clássicos problemas de moral que são apresentados em cursos de filosofia. Em resumo: não existe resposta perfeita para a mesma. 

O que eu acho é que o mundo atual é o reflexo de todas as lutas e desafios que nossos antepassados tiveram que enfrentar. Não apenas a I Guerra, mas cada uma das vezes em que um antepassado primitivo nosso, lá na savana africana, 500.000, 1 milhão de anos atrás, tentou salvar sua prole de um predador com o uso de um pedaço de osso para se defender, ele estava deixando uma herança positiva para as gerações futuras.

Por outro lado, gostamos de nos considerar superiores aos demais seres vivos do planeta. Se isto é verdade já esta na hora de encontrarmos motivação em coisas mais nobres que a mera sobrevivência.

6) A Grande Guerra foi apenas o começo de um dos séculos mais conturbados da história, marcado por movimentos fascistas e extremismos de outra razão, além de outros conflitos como a Segunda Guerra e a Guerra Fria. Podemos dizer que todos os grandes eventos militares do século XX tiveram raízes no desfecho ou no desenrolar dos anos de 1914 a 1918?

Eu diria que foram influenciados de maneira direta. Mas quanto às suas raízes, entendo que estarão sempre ligadas a economia e como o homem lida com os avanços tecnológicos.

Abraços,

Gustavo

Sunday, February 22, 2015

Commentaries on Willful Ignorance

The basic ideas of the book Willful Ignorance are:

1st) Uncertainty has two dimensions: of doubt and of ambiguity. 

Doubt is a matter that can be directly dealt with probability and statistical testing methods as we know them today. It is a matter of belonging or not to a certain category.

Ambiguity on the other hand is matter of defining the correct categories where the data should be classified (or not). 

Doubt is the territory of researchers and Ambiguity pertains to the practitioners in general. In other words: Ambiguity deals with finding the correct question. Doubt is our measure of certainty that our answer is right. On the other hand, we must remind ourselves that it is better to have an imperfect answer for a correct question than a perfect answer for the wrong question.


2nd) The statistical methods available today were developed in an era of Small Data. At that time (which is not so far from us in the history, for instance ,in the first and most of second half of XX century) a lot of work was done before a small table, with let´s say a thousand numbers put together. The ambiguity should be resolved by the time the table was finished. Therefore it was ready for statistical analysis as we know them today (hypothesis testing for instance). In this case, all was left was to solve the doubt issues.

Nowadays we live in an era of Big Data where large chunks of bits and bytes can be produced each second. In this world, lots of relationships will appear between the data pieces themselves, BUT, most of them will have been produced by noise not by real relationships. In this brave new world validation techniques are so important as the statistical techniques that we have used to far.

3rd) All these techniques will try to provide a new kind of validation that will come from replication of the results. The first proposal is to separate the data in at least two subsets: learning and testing. In the learning sub-set it would be applied the statistical techniques to get, for instance, the regression coefficients of a model. These models would than be put to test in a different sub-set (the so called testing set) and the results would than be confirmed or not.

I´d say that you could devise a meta-technique which would start dividing the whole group of data in several sub-sets (for instance ten). Each of them would generate a model (a linear regression model for instance) and their coefficients would be recorded creating another table. The data in this second table could than be subjected to a new hypothesis testing where we would try finding evidence that they are different from each other. In case we could not prove this difference (for instance with an ANOVA test) we would proceed for a second round of validation where each model would have its prediction power tested against the other (in this case nine) sub-sets. 

At this moment I can´t provide a numerical rule of thumb for approving (or not) a model based on this approach, but this can be the basis for a research program on validation techniques

4th) Other approaches that were mentioned n-fold cross validation, bootstrap and jackknife approaches. I would add Monte Carlo Simulation, although I´m not in the position (right now) of providing methodological guidelines for using Monte Carlo Simulation in validation designs.

Good luck, so far,

Gustavo,

Reading List on The Foundations of Probability and The Origins of Statistics

I have finished reading Willful Ignorance from Herbert Eisberg. From this book I got an interesting reading list in the subject of probability and the challenges that statistical techniques are now facing in the era of Big Data.

The reading list is composed of the following books:

  1. Laplace - Theorie Analytique des Probabilities. Considered by many as the first modern author in the field of probability, this book introduces the classical notion of probability as the measure of our uncertainty, but more important, solidifies the idea that a probability is the ratio between the successes and the total number of occurrences (good or bad) instead the old notion (from before the XVIII century) that used the odds ratio. 
  2. Keynes - A Treatise on Probability. An interesting approach on the epistemological basis of probability. 
  3. Andrei Kolmogorov - Foundations of The Theory of Probability. THE Text if you want to delve deeper in the mathematical foundations of probability. I noticed that he establishes his theory based on set theory and presents several of his ideas with Lebesgue Integrals. Both subjects are a must if you want to understand modern quantitative financial theory. 
  4. Student (1908). The probable error of a mean. Biometrika, 6: 1–25; - Very important paper, because it establishes the mathematical basis for the so called Student Distribution. It is interesting specially from a methodological perspective, for a researcher so it can be understood how a continuous probability distribution was discovered.
  5. Student, Probable error of a correlation coefficient. Biometrika, 6: 302–310 - Same as above. On the other hand I was not able to easily locate this paper like the previous one that can be downloaded from a myriad of sites.
  6. Stephen M. Stigler (1986a). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard University Press, Part 1, pp. 1–139. - It gives an important view on the development of Gauss ideas that lead to the least square method and the gaussian (normal) curve. I will try fqllowing the presentation in this book to better understand the mathematical foundations of the gaussian curve. In other words: how it was discovered. 
  7. Ronald A. Fisher (1925). Statistical Methods for Research Workers. - Very important because it gives an idea on the origin of the p-value and the so called factorial designs.
  8. Karl Pearson (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5, 50: 157–175. - It provides an understanding on the Chi-Squared distribution and the research problems that leaded to it.
  9. John W. Tukey (1977). Exploratory Data Analysis. Reading, MA: Addison–Wesley.
  10. John P. A. Ioannidis (2005). Why most published research findings are false. PloS Medicine,
  11. Gary King (1995). Replication, replication, replication. Political Science and Politics, 28: 443–499
The order for me will be 1st) Kolmogorov, 2nd) Stiegler, 3rd) Pearson, 4th) Student, 5th) Fisher

So far so good.

Tuesday, February 10, 2015

Installing MADlib Library Adventure

After several days trying (and I must say learning a lot) I finally got to the commands necessary to install MADlib.

1st) My first attempt was done using the pgxn client (postgre extensible network client).

First you need to make sure that Ubuntu is updated. To do so, open a terminal (CTRL+T) and type the following command: sudo apt-get update

Next you need to install PostgreSQL itself. If it has not been installed yet, you can do so, by typing the command: sudo apt-get install postgresql. After that install cmake, which is (I think) a compiling program, and plpython, which will provide python support for postgresql, postgresql development server, libkrb5, a development library and pgxn client, a client for postgre extensible network. All of that can be acomplished with the following sequence of commands:
          sudo apt-get install -y cmake
          sudo apt-get install -y postgresql-server-dev-9.3
  sudo apt-get postgresql-plpython-9.3
         sudo apt-get install -y libkrb5-dev
  sudo apt-get pgxnclient

Having finished all of that, install madlib using pgxn. Pgxn handles the
configuration, compilation and installation parts. All of that can be done by
just typing sudo pgxn install madlib.

After that, start the PgadminIII interface, conect to your DB (in my case it was mydb), start the PSQL Console and type the commands: create extension plpythonu; Create a new user (besides the superuser which is created by default) and try issuing the command (on PSQL console): create extension madlib; 

In case the last command (create extension plpythonu) doesn´t work (on the PSQL Console), go to a terminal and type: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb  install. This is the madpack command. It is needed to register madlib with your Postgre databse. Finally to confirm that everything is ok, test your installation with the command: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb install-check.

Using this approach I got to the create extension madlib  part. This command didn´t run because I was not aware of the need to link externally the madlib library with my database, using the madpack application. Since I was left with no install I decided to install MADlib from source. 

2nd) This time we´re going to download, get the dependencies, compile and install MADlib from source. To do so, proceed as follows:

Set up the environment:  sudo apt‐get install build‐essential checkinstall  
sudo apt‐get install cvs subversion git‐core mercurial
sudo apt‐get ‐y install m4 gcc‐4.6 g++‐4.6 g++
OBS: what is   git clone git@github.com:madlib/madlib.git
wget Page on Github
Make a personal directory to receive the sources, and make sure you have proper rights in it:
sudo chown $USER /usr/local/rc
sudo chmod u+rwx /usr/local/src

Download MADlib 1.7.0 source from www.madlib.net in /home/gustavo/downloads and copy the .tar.gz or .tar.gz2 to /usr/local/src
Unpack the .tar.gz or .tar.gz2 file: tar ‐xzvf file.tar.gz OR tar ‐xjvf file.tar.bz2 and change to the new subdirectory: cd madlib-1.7.0 
Now comes the first programming part: test the dependencies with ./configure until there are no more missing libraries. For each error that is found, download and install the correspondent library. For instance if ./configure detects that the library named namelibtool is missing, you can install it with: sudo apt-get install namelibtool. You can also try sudo apt-get build dep command to try downloading all dependencies at once that are needed by command.
When there is no more errors reported by ./configure change to the ./build directory (cd build) and start compiling the source by typing: make

Having compiled the source, you need to install it. Some sites tell you to install with sudo make install but this way of installing is being abandoned in favor of sudo checkinstall or sudo checkinstall ‐‐fstrans=0 in case the first command fails. Using checkinstall is preferred, because this way the package can be managed by Synaptics Package Manager.
The plpython extension can than be created in the terminal itself by: createlang plpythonu db. Finally type: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb  install to created the madlib extension in your postgre database and check if everything went well by typing: bash /usr/local/madlib/bin/madpack ‐p postgres ‐c postgres@localhost/mydb install-check.

As a final note, keep in mind that you can connect to a Postgre db and start the PSQL Command Line in the terminal itself by typing: 
sudo su ‐ postgres - connect to a database
psql - starts the PSQL command prompt
postgres=# alter role postgres with password 'postgres'; - adds a password to a role (db user)
postgres=# alter role postgres with password null; - removes a password from a role (db user)

Other tips:
To unlock a database:
sudo rm /var/lib/dpkg/lock
sudo dpkg --configure -a

To remove an installation made with make install:
sudo aptitude install checkinstall
sudo make; sudo checkinstall - this will create a .deb package
Uninstall the .deb and you're done.
To initialize Postgre from command line and get to the PSQL command prompt, without starting PGAdminIII:
sudo su ‐ postgres - connect to a database psql - starts the PSQL command prompt postgres=# alter role postgres with password 'postgres';
- adds a password to a role (db user) postgres=# alter role postgres with password null;
- removes a password from a role (db user)

Best regards,

Gustavo


Environment Structure Review (Post in Brazilian Portuguese)

Ambiente de Trabalho:
Máquina Virtual Ubuntu com R, RStudio, pacotes ggplot2 e RODBC, Python Eric e Plpython, PostgreSQL, MADlib e Hadoop    

Estrutura do Curso:

Exercícios:
                        1º) em Excel,
                        2º) em R,
                        3º) em R carregando do Excel,
                        4º) em R carregando de um Postgresql,
                        5º) exportar de um DB (via SQL),
                        6º) importar de um DB (via Python),
                        7º ) executar in-db analytics (MADLIB),
                        8º) ensinar no HADOOP

 Técnicas: (em Excel e R):
                         1º) Estruturas de dados básicas (apenas em R),
                         2º) Teste de Hipóteses,
                         3º) ANOVA,
                         4º) Visualização,
                         5º) K-means clustering,
                         6º) Regras de associação,
                         7º) Regressão Linear simples e múltipla,
                         8º) Regressão Logística,
                         9º) Naive Bayes (apenas em R),
                        10º) Árvores de Decisão,
                        11º) Séries Temporais,
                        12º) Análise Textual (apenas em R)

 Bancos de Dados:
           1º) Gerar as bases de dados no Postgresql: retail data, census data
           2º) Seguir lab e/ou tutorial do Postgresql que existe na WEB
           3º) Extrações do Postgresql para análise no R
           4º) MADlib para gerar analytics in-db (com R & Postgresql)
           5º) HADOOP / MAPREDUCE & Python (????)

 Possíveis aplicações nos cases de marketing transferidos

Monday, February 9, 2015

Sharing of folders between Windows Host and Ubuntu Guest and other tricks (Post in Brazilian Portuguese)

04/02/2015

Para compartilhar pasta entre Windows e Ubuntu
No Oracle Virtual Box Windows :  selecione a máquina virtual em uso, vá em pastas compartilhadas, escolha o caminho no Windows a ser compartilhado e anote o NOME DA PASTA que foi atribuido a este diretório windows. No caso do meu computador vou compartilhar c:\Uses\Gustavo\Downloads com o nome "Downloads".

No Ubuntu: vá para o diretório media e crie um diretório para ser o diretório de compartilhamento. No meu caso eu escolhi do diretório /media/windows-share
cd /media
sudo mkdir windows-share
sudo mount -t vboxsf Downloads /media/windows-share

Para listar todos os conteúdos de um diretório no Ubuntu
sudo ls -lha /media/windows-share

Para remover o diretório e todo o conteúdo
sudo rm -r -f /media/windos-share

Para descobrir a versão do PostgreSQL
psql --version (no meu caso hoje é a 9.3.5)

Para descobrir a versão do Ubuntu
applications->details (no meu caso hoje é 14.04) (64bits)
fiz o download de atualizações novas e instalação de todas as disponíveis

Para detectar meu IP externo
WHAT´S MY IP ADDRESS no google

Para detectar meu IP local
CMD, ipconfig, procurar por ipv4.address. por ex., na rede VPN meu ip é 10.252.35.119.

Para acessar a VM Horton a partir da VM Ubuntu
Utilizar o ip indicado local, por ex:10.252.35.119 na porta 8888. 
Sendo DHCP, deve-se descobrir o ip da máquina a cada conexão.

Para abrir o terminal de comandos
CTRL+ALT+T

Para passar do modo tela cheia para o modo janela
CTRL+F

Para rodar o Ubuntu de um drive externo no Samsung Ativ 6
    System setup (F2) :
    Fastboot DISABLED
    Secure Boot DISABLED
    Method UEFI OS
    Boot sequence: Pendrive, External HD, Windows

    Loader script:
    Press "e" to edit
    Change "quiet splash" to "nomodeset"
    Press F10 to boot

    OU
    CTRL+ALT+T
    sudo gedit /etc/default/grub
    Change "quiet splash" to "nomodeset" and save
    update grub (will update  /boot/grub/grub.cfg)


    When running Ubuntu ALWAYS change the loader script, otherwise, system will not run

Para realizar o setup do PostgreSQL
     sudo -u postgres psql postgres (get into postgres)
     \password postgres (request a new password)
     CTRL+D (get out of postgres prompt)
     sudo -u postgres createdb mydb (creates first db)
     sudo apt-get install postgresql-contrib (administrative package)
     sudo -u postgres psql (will get into postgres again)

     CREATE EXTENSION adminpack


Tuesday, February 3, 2015

Important Quant Professionals, Journals and Pages that I should follow

Here is a list of important quants professionals that I have got from the web:
  1. Alex Lipton/Leif Anderson (BAML)
  2. Bruno Dupire/Fabio Mercurio (Bloomberg)
  3. Daniel Nehren (JP Morgan)
  4. David Li (AIG)
  5. Ezra Nahum (Goldman Sachs)
  6. Lorenzo Bergomi (Société Générale)
  7. Peter Carr (Morgan Stanley)
  8. Vladimir Piterbarg (Barclays)
To follow their ideas, just google the names mentioned above and enjoy the ride!

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
The journals that I´m currently trying to follow, reading and studying the papers are (specially because they are avaiable in pdf format to me):

  1. Finance and Stochastics (from Springer) http://link.springer.com/journal/780
  2. Computational Economics (from Springer) http://link.springer.com/journal/10614

Journals that I should follow, but will most certainly not have enough time to read and study the articles in full detail (alphabetical order):
  1. Applied Financial Economics Letters
  2. Applied Mathematical Finance
  3. Journal of Simulation - http://www.palgrave-journals.com/jos/journal/v8/n4/index.html
  4. The Journal of Computational Finance - http://www.risk.net/type/journal/source/journal-of-computational-finance. I should follow this one more closely BUT it is now avaiable (to me) in pdf format, only in paper, so I will end up not reading it. 
  5. The Journal of Derivatives - http://www.iijournals.com/toc/jod/current
Regarding pages where can be found interesting research (that unfortunatelly I will also not follow more closely) it can be mentioned:
  1. prof.Edson de O.Pamplona page on Unifei - Interesting website with articles on cost analysis - http://www.iepg.unifei.edu.br/edson/pesquisa.htm#producao.
  2. prof.Petr Dostál website on Decision Making, Soft Computing and Fuzzy Logic - Nice collection of papers on quantitative methods applied to decision making. Special notice on fuzzy logic applications, but also some papers on chaos theory.
  3. Yale´s prof.Shyam Sunder course description on Experimental Economicshttp://http://faculty.som.yale.edu/shyamsunder/ExperimentalEconomics/Expecon2008Fall.html
  4. Van Kurt Blog - with an interesting page on simulation of correlated and uncorrelated variables - https://kurtverstegen.wordpress.com/2013/12/07/simulation/
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
Flows in Railway Optimization
If I ever write a paper about the history of Operations Research...

...I must not forget this paper: Flows in railway optimization, by Alexander Schrijver. The paper can be found at: http://homepages.cwi.nl/~lex/files/flows_in_ro.pdf

And besides this, if I keep my sources in the Netherlands I should not forget the Amsterdan Optimization Group (http://amsterdamoptimization.com/).

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
An interesting free add-in for Excel: NtRand. It has a complex set of random numbers generator based in the Mersenne´s Algorithm. It can be found in http://www.ntrand.com/documentation/. Although I mainly use R or Palisade's @RISK to generate random numbers, this is an alternative to the standard ALEATÓRIO() function (in Excel´s PT-BR).

---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------