Requisitos:
- Experiência com Análise de Dados, preferencialmente no setor de saúde;
- Experiência em arquiteturas de Data Lake usando Oracle Cloud Infrastructure (OCI) e Oracle S3;
- Experiência com ferramentas de integração de dados e pipelines de ETL, como Apache NiFi, Oracle Data Integrator ou Talend;
- Sólida experiência em desenvolvimento Python, utilizando bibliotecas como Pandas, PySpark, SciKitLearn para manipulação de dados;
- Experiência com serviços de nuvem AWS: S3, Glue, RDS, Redshift, EC2, Lambda;
- Experiência com SQL e NoSQL para gerenciamento de dados relacionais e não relacionais;
- Conhecimento em Hadoop, Spark ou Kafka para processamento distribuído de dados;
- Conhecimento em DevOps com o uso do Jenkins para integração e entrega contínua(CI/CD), além de automação de tarefas de implantação e gerenciamento de pipelines.
Responsabilidades:
- Projetar, implementar e manter a arquitetura de Data Lake usando **Oracle S3** para armazenar, processar e organizar grandes volumes de dados médicos;
- Implementar o fluxo de dados através das camadas Raw, Trusted, e Refined, garantindo que os dados sejam processados corretamente e estejam prontos para análise avançada e machine learning;
- Desenvolver pipelines de ETL/ELT para ingestão, transformação e limpeza de dados de saúde provenientes de diversas fontes, incluindo prontuários médicos (EHR/EMR), sistemas hospitalares, e bancos de dados médicos;
- Implementar políticas de segurança e privacidade, especialmente em conformidade com a LGPD, garantindo o uso seguro e ético dos dados;
- Desenvolver soluções escaláveis para processar grandes volumes de dados em tempo real e em batch, usando frameworks como Apache Spark e ferramentas de processamento distribuído;
- Otimizar o uso de OCI Object Storage e sistemas distribuídos para garantir eficiência
Esteja sempre atualizado com as oportunidades de emprego, diretamente no seu WhatsApp!
Receba notificações instantâneas sobre as mais recentes vagas disponíveis na sua região