Wir sind eine im Jahr 2015 gegründete, erfolgreiche und wachsende Machine Intelligence (Machine Learning und AI) Firma, mit 120+ Data Engineers und Data Scientists. Mit der Zielsetzung die Art und Weise wie Menschen Daten nutzen zu revolutionieren, entwickeln wir Technologien der nächsten Generation. Durch die Vereinigung von Big-Data- und Machine-Learning-Technologien, entwickeln wir Systeme der Zukunft und sind damit ein aktiver Teil der stattfindenden künstlichen Intelligenz Revolution. Wir entwickeln hauseigene Data Analysis und Machine Learning Solutions und beraten unsere Kunden im Rahmen Ihrer Projekte. Basierend auf unserem Know how helfen wir unseren namhaften Kunden bei der Einführung von maßgeschneiderten AI-Lösungen. Wir suchen Data Engineers / Data Scientists, die eine Leidenschaft für Themen wie Information Retrieval, Distributed Computing, Artificial Intelligence und Natural Language Processing haben.
Full-Time Köln (HQ), Deutschland
Ihre Aufgaben:
Aufbau von innovativer AI- und Machine-Learning-Lösungen.
Entwicklung von Generative Deep Learning Models: Erstellen, trainieren und fine-tuning neuraler Netzwerke mit Python-Tools Torch, Numpy, Pandas, PySpark, Jupyter, Transformers, Datasets, Tiktoken und Wandb.
Natural Language Processing (NLP) unter Verwendung von Bibliotheken aus dem HuggingFace-Ökosystem (Python-basierte Deep-Learning-Bibliothek für LLMs) – Transformers, Datasets, Tokenizers und Accelerate – sowie der vortrainierten Hugging Face Hub-Modelle.
Design und Entwicklung von ML-Systemen für produktionsreife Anwendungen, die zuverlässig, skalierbar, wartbar und anpassungsfähig an sich ändernde Geschäftsanforderungen sind.
Entwicklung von MLOps-Pipelines für Automatisierung kontinuierliche Entwicklung, Bewertung und Bereitstellung von Modellen.
Entwicklung Überwachungssysteme zur schnellen Erkennung und Behebung von Problemen, auf die Modelle in der Produktion stoßen könnten.
End-to-End-Design und Implementierung von Datenanalysesystemen; Dazu gehören Datenerfassung, Anforderungsengineering und Spezifikation sowie die Konzeption von technischen Lösungen auf der Grundlage von Geschäftsanforderungen.
Ermittlung und Identifizierung von Möglichkeiten für die Gestaltung und Implementierung von Internet-Scale-Data-Mining-Lösungen in enger Zusammenarbeit mit anderen Data Scientists und Data Engineers.
Entwicklung von ETL-Pipelines für große und komplexe Datensätze; Verarbeitung von strukturierten und unstrukturierten Daten mit Spark, Pandas, Dask, Kafka usw.
Prototyping und Implementierung von massiv skalierten Data-Analytics-Lösungen auf der Basis von Big-Data-Werkzeugen (Spark, DWH, SQL, Python und R).
Arbeiten mit Cloud-Plattformen (AWS, Azure und Google Cloud).
Dein Profil:
Masterabschluss in Informatik oder ähnliche quantitative Studiengänge wie Statistik, Operations Research, Bioinformatik, Mathematik oder Physik.
1 Jahr Berufserfahrung oder akademische Erfahrung im Machine Learning und künstliche Intelligenz.
1 Jahr relevante Erfahrung im Bereich der Datenanalyse (Statistik / Datenwissenschaft).
Erfahrungen mit einem oder mehreren Mehrzweck-Programmiersprachen, einschließlich, aber nicht beschränkt auf: Java, C / C ++, Python, Scala oder R.
Fließende Deutsch- und / oder Englischkenntnisse.
Master in Informatik, Machine Learning oder ähnlichen technischen Feldern. (bevorzugt)
Erfahrungen mit einem oder mehreren der folgenden Themen: Natural Language Processing and Understanding, Klassifizierung, Mustererkennung und Empfehlungssysteme. (bevorzugt)
Erfahrung im Umgang mit großen Datenmengen, z. B. soziale Netzwerkdaten, wissenschaftliche Daten, Sensordaten usw. (bevorzugt)
Erfahrung in der Anwendung von Machine Learning auf großen Datensätzen. (bevorzugt)
Bewährte Programmierungserfahrung in mindestens einer Programmiersprache wie Java, Scala, C ++ oder einer ähnlichen objektorientierten Sprache. (bevorzugt)
Wir Bieten Dir:
Eine anregende und herausfordernde Arbeitsatmosphäre mit einer flachen Hierarchie und erfahrenen und hilfsbereiten Kollegen und Kolleginnen.
Eine umfassende Schulung und Ausbildung.
Themen, die wir in unserem Training abdecken werden:
Big Data Science: Python Machine Learning Libs (NumPy, SciPy, Pandas, IPython, Scikit-Learn, PyTorch, TensorFlow, JAX, NLTK), Spark für Data Mining und Machine Learning (Spark SQL, Spark MLlib, PySpark).
Deep Neural Networks: Feed-Forward Neuronale Netze, Convolutional Netze, Recurrent Neuronale Netze, Entwicklung der Produktion bereiten TensorFlow, JAX und PyTorch Lösungen.
Data Science und Machine Learning Grundlagen: Zeitreihen und sequenzielle Datenverarbeitung, Supervised and Unsupervised Machine Learning, Klassifizierung, Logistik Regression und Random Forest, Support Vektor Maschinen, K-Nearest Nachbarn, Naive Bayes und Gradient Boosting.
Generative Deep Learning und LLMs: Trainieren von einem großen Sprachmodell, welches kohärente Textabsätze generieren und bei vielen Sprachmodellierungs-Benchmarks Spitzenleistungen erzielen kann. Zudem verfügt es über ein Leseverständnis und kann maschinelle Übersetzungen und die Beantwortung von Fragen und Zusammenfassungen durchführen. Dies alles geschieht ohne ein aufgabenspezifisches Training.