Unser Ansatz
Unser Ansatz im Überblick
Die Komplexität eines konventionellen Data Science Prozesses entsteht durch die Vielzahl an Iterationen und aufwändigen manuellen Tätigkeiten. Bis die Lösung eine Produktivitätsreife erlangt, vergehen oft mehrere Monate. Um dieser Komplexität entgegenzutreten, wurde der Prozess durch eine konsequente Automatisierung sowie Standardisierung optimiert. Dadurch wird auch die Durchlaufzeit der gesamten Data Science Wertschöpfungskette deutlich reduziert.
Unser Ansatz besteht aus fünf Phasen. Abhängig von Ihrem Bedarf und Ihren Wünschen schneiden wir den Ansatz individuell auf Sie zu. Demzufolge erhalten Sie nur die Leistungen, die Sie tatsächlich benötigen.
1 - PROTOTYPING
Gemeinsam definieren wir auf Basis Ihrer Wünsche Wertschöpfungsstrategien zur Gewinnsteigerung. Wir optimieren Ihre Prozesse und entwickeln individuelle Lösungsideen. Dabei identifizieren wir die relevanten Stakeholder, Projektziele sowie die benötigten Daten.
In einer Use Case Matrix bewerten und priorisieren wir die einzelnen Ideen. Hierbei betrachten wir die Dimensionen Machbarkeit und Wertschöpfung. Schließlich tauchen wir in einem Deep Dive tiefer ein, um sowohl fachliche als auch technische Anforderungen abzuleiten.
Dabei werfen wir einen Blick auf das vorhandene IT-Systemumfeld, sodass die Einbettung der Lösung in die vorhandene Architektur sichergestellt ist. Im Anschluss konzipieren wir die ersten, neuen Schnittstellen.
Das Ergebnis unserer Arbeit wird in Form eines Prototyps bzw. MVPs präsentiert. Folglich dient er als Entscheidungsgrundlage für eine mögliche Umsetzung.
2 - PREPROCESSING
Durch die statistische Datenanalyse fassen wir die vorliegenden Einzeldaten DSGVO-konform in tabellarischer oder grafischer Form zusammen. Dadurch gewinnen wir Erkenntnisse über die Datenlage und prüfen, ob die benötigten Daten mit entsprechender Datenqualität vorliegen.
Mit Hilfe der Methoden der deskriptiven Statistik konstruieren wir Hypothesen und untersuchen diese mit statistischen Tests.
Damit bei der Verarbeitung der Daten die operativen Systeme nicht belastet werden, extrahieren wir die relevanten Daten aus den verschiedenen Quellen. Anschließend transformieren wir sie in das Schema und Format der Zieldatenbank. Letztlich stellen wir sie dort für die weitere Verarbeitung bereit.
Ergebnisoffen bearbeiten wir die Daten und reduzieren den Bestand durch Verdichtung sowie Bereinigung redundanter, fehlender oder „verrauschter“ Daten. Abschließend kodieren wir die Daten und überführen sie in einen Zustand, der von den Algorithmen interpretiert werden kann.
3 - MODELLING
Die Auswahl der grundlegenden Architektur und der Algorithmen wird auf Basis der Datenlage sowie des Anwendungsfalles getroffen. Bei der Konzeptionierung des Modells fließt Ihr Domänenwissen ein und unterstützt uns bei der Evaluation des Ergebnisses.
Anschließend wird das Modell kontinuierlich trainiert, validiert und optimiert.
Die Vorhersagen des Modells passen wir an Ihre Bedürfnisse an. Für Sie entwickeln wir Reports, die in Form von Dashboards dargestellt oder sich für die weitere Verwendung eignen.
4 - IMPLEMENTATION
Auch bei der Implementierung des Modells in den Echtzeitbetrieb unterstützen wir Sie. Dabei stellen wir Ihnen Schnittstellen bereit und begleiten Sie in einem vollumfänglichen Change-Management inklusive Schulungen.
Auf Ihren Wunsch hin entwickeln wir individuelle Applikationen und Interfaces, in der die von uns erarbeitete Lösung integriert ist. Dadurch kann sie in einer visuell anschaulichen Weise zur Verfügung gestellt werden. Um Ihnen das Beste und Sicherste ermöglichen zu können, kooperieren wir dabei mit unseren Software-Entwicklungsspezialisten der PMC Services GmbH sowie unserer IT-Security.
Während und nach dem Go Live findet eine kontinuierliche Überwachung und Begutachtung statt. Dadurch sollen iterative Anpassungen an das Modell vorgenommen werden können.
5 - MAINTENANCE
Dynamisch wächst Ihr Datenbestand mit jedem Tag. Deshalb unterstützen wir Sie und Ihr implementiertes Modell, indem wir es stetig an die neuen Daten anpassen und es somit instandhalten.
Unsere Tools
Bei der Auswahl geeigneter Tools für die einzelnen Ansatz-Phasen setzen wir uns auf Open-Source-Lösungen. Dies liegt daran, dass durch den offenen Quellcode ein Höchstmaß an Transparenz und Vertrauen in die Software garantiert werden kann.
Die DSGVO nimmt bei uns einen hohen Stellenwert ein. Deshalb agieren wir ganz nach dem Prinzip » Artificial Intelligence made in Europe «.




MODELLENTWICKLUNG
Python ist eine verbreitete Programmiersprache im Bereich der Datenverarbeitung und erlaubt es, schnell und elegant Quellcode zu generieren.
Für die Implementierung der Modellarchitektur nutzen wir die beiden Frameworks Keras mit TensorFlow als Backend und Scikit-learn. Beide besitzen eine hohe Leistungsfähigkeit und gute Skalierbarkeit.
Visualisierung
Während unseres Prozesses müssen die Daten für unterschiedliche Stakeholder visuell aufbereitet werden. Dabei nutzen wir in unserem Ansatz Matplotlib für die Visualisierung einfacher Datenanalysen. Auf der anderen Seite entwickeln wir mit Tableau individuelle Dashboards. Schließlich wenden wir D3 für eine interaktive und dynamische Datenvisualisierung in Webbrowsern an.








Datenverarbeitung
Bei der Verarbeitung von kontinuierlichen Datenströmen, deren Volumen in den Petabyte-Bereich gehen können, verlassen wir uns auf Apache Kafka, Apache Spark und Apache Storm. Diese Frameworks ermöglichen eine effiziente Datenverarbeitung in nahezu Echtzeit.
Dahingegen greifen wir für die numerische Transformation der Daten auf die Datenstrukturen und Operationen, von NumPy und pandas zurück.
Entwicklungsumgebung
Für die Erstellung und Verwaltung des Quellcodes – angefangen von der ersten Datenanalyse bis zum fertigen Modell. Bei unserem Ansatz nutzen wir unterschiedliche Hilfsmittel: Jupyter Notebook erlaubt es uns, schnelle Prototypen zu entwickelnm Mit PyCharm entwickeln wir komplexe Anwendungen und Microsoft Azure unterstützt uns mit der Bereistellung von Rechenleistung. Dabei nutzen wir GitLab für die kontinuierliche Versionierung unseres Quellcodes und Fortschritts.


