(English version at the bottom)
Tive o prazer de bater um papo com Felipe Pereira Finamor, engenheiro e mestre em metalurgia e materiais que possui uma pós-especialização em ciência de dados. Conversamos sobre sua trajetória profissional e o trabalho que ele tem desenvolvido aplicando Machine Learning para resolver problemas relacionados às predições das propriedades dos materiais. Esse trabalho é realizado em uma das maiores produtoras de aço nacional.
Durante sua graduação, Felipe participou de um projeto de iniciação científica (CNPq) dentro de sua instituição. Essa oportunidade foi única, por permitir que ele tivesse contato com a metalurgia do ponto de vista prático. Recém formado, Felipe começou a trabalhar para uma empresa de fundição, onde foi imerso em um ambiente de produção com altos padrões de qualidade que usava técnicas avançadas de manufatura enxuta. Infelizmente a crise econômica afetou sua atividade, porém ele aproveitou o momento para iniciar um mestrado em uma das mais conceituadas universidades do país.
Alguns anos mais tarde, Felipe foi convidado para assumir a posição de supervisor técnico de dois laboratórios do SENAI FIEMG. Ele foi então introduzido aos conceitos inovadores da Indústria 4.0 (I4.0), em parte por haver um supervisor que estava vindo do instituto alemão Fraunhofer, um dos berços da I4.0, mas também pelo sucesso das parcerias público-privadas que geraram projetos com problemas reais a serem solucionados. Havendo uma sólida bagagem acadêmica com experiências em indústrias de processo e centros de pesquisa, Felipe aceitou o desafio. Porém, dessa vez o foco era a ciência de dados.
Sua rotina se divide entre suporte aos clientes e pesquisa aplicada. O objetivo da sua pesquisa é garantir que as propriedades do aço produzido estejam nos limites especificados para a aplicação. O método utilizado pelo entrevistado consiste em aplicar técnicas e algoritmos de Machine Learning para encontrar padrões e auxiliar na procura da causa raiz de problemas. Em virtude da grande escala e da complexidade do processo não é possível resolver este problema de outra maneira. A aplicação dessas técnicas segue duas vertentes. Primeiramente, analisando os dados históricos offline é possível procurar a causa raiz de problemas ocorridos posteriormente. Em seguida, com dados online e um modelo de predição em produção, é possível ajustar os pontos de ajuste dos parâmetros para antecipar possíveis desviações de processo.
Na prática, Felipe prepara tabelas (com cerca de dez mil linhas) de dados provenientes de diversas fontes. Esses dados são divididos entre trinta e quarenta colunas, onde cada coluna representa uma propriedade importante, seja química, mecânica, elétrica ou de processo. Uma vez limpados e estruturados os dados, eles são separados em dois datasets. O primeiro dataset é o de treino e possui setenta por cento dos dados iniciais. O segundo é um dataset de validação que possui os trinta por cento restantes. Na modelagem do sistema, Felipe se baseia em conceitos importantes de estatística e utiliza, no momento, a linguagem de programação R, que possui várias bibliotecas para ciência de dados. Algumas delas são a caret, e1071 e dplyr que permitem tanto a manipulação dos dados quanto a aplicação de algoritmos de aprendizagem de máquina, a exemplo de árvore de decisão ou classificadores supervisionados como o SupportVectorMachine, Random Forest e Redes Neurais Artificiais.
O entrevistado ressalta, no entanto, que embora sejam usados algoritmos e técnicas avançadas, é fundamental que o profissional reste pragmático e não se deixe iludir pelos resultados. Problemas de medição, como, por exemplo, sensores descalibrados, poderiam falsar um modelo ou levar a conclusões incorretas. Esse é um dos motivos pelos quais é importante retreinar o modelo com frequência, nesse caso a cada seis meses, ou quando alterações significativas no processo ocorram. Outra vantagem ao retreinar um modelo é aproveitar a ocasião para refinar um algoritmo, pois até mesmo as bibliotecas utilizadas podem ter sido atualizadas e otimizadas entre esse tempo.
O exemplo do Felipe ilustra uma realidade que as empresas já estão enfrentando. Podemos chamar de I4.0 ou até outro nome, porém é possível observar que o contexto está mudando e que cada vez mais os profissionais precisarão atualizar seus conhecimentos e trabalhar em equipe. Aliás, um trabalho de equipe é fundamental para serem alcançados resultados escaláveis de alto impacto. Um cenário possível seria constituir uma equipe compacta e interdisciplinar com um perfil como o do Felipe e adicionando: engenheiros de automação para a parte de coleta dos dados provenientes dos sensores do chão de fábrica, engenheiros de software para ajudar na parte de infra estrutura e redes e engenheiros de processos com conhecimentos das etapas de manufatura. É inspirador ver que a I4.0 não está ocorrendo somente nas grandes multinacionais estrangeiras do Baden-Württemberg, mas que já virou realidade também no Brasil, como nesse caso em Ipatinga, no interior de Minas Gerais.
Nosso bate-papo se concluiu com algumas dicas para quem quer ingressar no ramo de ciência de dados em ambientes industriais. Felipe sugere começar com uma base forte em estatística, para depois iniciar na programação em R ou Python. Bons materiais acessíveis nessa área não faltam, basta olhar no YouTube ou em MOOCs e até mesmo dar uma olhada nos exemplos tratados no Kaggle, usando as tags manufacturing ou iot. Uma frase que o Felipe mencionou e que resume bem essa ideia é “seja curioso”.
Para quem quiser acompanhar um pouco mais do trabalho do Felipe, confira os artigos científicos publicados neste link.
-----
I had the pleasure of chatting with Felipe Pereira Finamor, metallurgy and materials engineer, who has a post-specialization in data science. Our conversation covered some episodes of his professional career and the work he has developed applying Machine Learning to solve problems related to predictions of material properties. This work is carried out in one of the largest Brazilian steel producers.
During his graduation, Felipe participated in a scientific initiation project within his institution. This opportunity was unique, as it allowed him to have contact with metallurgy from a practical point of view. Recently graduated, Felipe started working for a foundry company, where he was immersed in a production environment with high quality standards that used advanced lean manufacturing techniques. Unfortunately, the economic crisis affected his activity, but he took advantage of the moment to start a master's degree in one of the most prestigious universities in Brazil.
A few years later, Felipe was invited to take the position of technical supervisor of two laboratories at SENAI FIEMG. He was then introduced to the innovative concepts of Industry 4.0 (I4.0), partly because there was a supervisor who was coming from the German Fraunhofer institute, one of the cradles of I4.0, but also because of the success of public-private partnerships that generated projects with real problems to be solved. Having a solid academic background with experiences in process industries and research centers, Felipe accepted the challenge. However, this time the focus was on data science.
His routine is divided between customer support and applied research. The objective of his research is to ensure that the properties of the steel produced are within the limits specified for the application. The method used by the interviewee consists of applying Machine Learning techniques and algorithms to find patterns and assist in finding the root cause of problems. Due to the large scale and complexity of the process, it is not possible to solve this problem in any other way. The application of these techniques follows two strands. Firstly, by analyzing historical offline data, it is possible to search for the root cause of issues occurring a posteriori. Then, with online data and a prediction model in production, it is possible to adjust parameter set points to anticipate possible process deviations.
In practice, Felipe prepares tables (with about ten thousand lines) of data from various sources. These data are divided between thirty and forty columns, where each column represents an important property, whether chemical, mechanical, electrical or process. Once the data is cleaned and structured, it is separated into two datasets. The first dataset is the training one and has seventy percent of the initial data. The second is a validation dataset that has the remaining thirty percent. When modelling the system, Felipe relies on critical concepts of statistics and currently uses the programming language R, which has several libraries for data science. Some of them are caret, e1071 and dplyr that allow both data manipulation and the application of machine learning algorithms, such as decision tree or supervised classifiers like SupportVectorMachine, Random Forest and Artificial Neural Networks.
The interviewee points out, however, that although advanced algorithms and techniques are used, it is fundamental that the professional remains pragmatic and does not allow himself to be deceived by the results. Measurement problems, such as, for example, non-calibrated sensors, could falsify a model or lead to incorrect conclusions. This is one reason why it is important to retrain the model frequently, in this case every six months, or when significant changes in the process occur. Another advantage of retraining a model is to take the opportunity to refine an algorithm, as even the libraries used may have been updated and optimized between that time.
Felipe's example illustrates a reality that companies are already facing. We can call it I4.0 or even another name, but it is possible to observe that the context is changing, and that professionals will increasingly need to update their knowledge and work in teams. In fact, teamwork is essential to achieve scalable, high-impact results. A possible scenario would be to constitute a compact and interdisciplinary team with a profile like Felipe's adding: automation engineers for the collection of data from the sensors on the factory floor, software engineers to help in the infrastructure and networks, and process engineers who have a good knowledge of the production stages. It is inspiring to see that I4.0 is not only happening in the large foreign multinationals of Baden-Württemberg, but that it has also become a reality in Brazil, as in this case in Ipatinga, in the interior of Minas Gerais.
Our chat concluded with some tips for those who want to get into data science in industrial environments. Felipe suggests starting with a strong foundation in statistics, to then start programming in R or Python. Good accessible materials in this area are not lacking, just look on YouTube or in MOOCs and even take a look at the examples covered in Kaggle, using the tags manufacturing or iot. A phrase that Felipe mentioned that sums this idea up well is “be curious”.
For those who want to know more about Felipe's work, check out the scientific articles published in this link.
No comments:
Post a Comment