Shareholder R/2 Börsensoftware
Space shortcuts

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Nachfolgend werden für dieses Zielbild, die Kern-Aufgaben-Cluster (Epics) beschrieben.

Installationsanleitungen (komprimiert)

Jira
serverSupportsystem Shareholder R/2
serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
keySHAREHOLDER-2719

...

Trainings und Validierungsdaten für Machine-Learning-Systeme

Jira
serverSupportsystem Shareholder R/2
serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
keySHAREHOLDER-2720

Für die Dateneinbindung von außen sollte zunächst ein Datenlade-Mechanismus unterstützt werden, der schnell und geeignet erscheint für den initialen Ladeprozess im ML-System. 

Durch ShareHolder werden dabei verschiedene Implementierungen bereitgestellt, die durch Ihren Umfang, Konfigurationsmöglichkeiten und Art der Daten einen erheblichen Mehrwert darstellen. Sie reduzieren so den Aufwand für den Aufbau von Neuronalen Netzen/ML-Algorithmen deutlich. Die Bereitstellung von Trainings-und Validierungsdaten umfasst dabei immer die Datenquellen-Einbindung, Datenvorverarbeitung und die Datenbereitstellung.

Datenquellen-Einbindung

Zunächst müssen geeignete individualisierbare Daten in ausreichendem Datenumfang bereitgestellt werden:

  • Status
    colourGreen
    titleOK
     Mehrjährige Kursdaten von Watchlisten oder Marktsegmenten als Datum|Open|High|Low|Close|Volumen Felder. Die Daten können dabei wie gehabt aus Tai-Pan und allen eingebundenen Internet-Datenquellen bezogen werden. Es stehen je nach Titel somit deutlich mehr als 15 Jahre Kurshistorie zur Verfügung.
  • Aufbereitung der Kursdaten mit speziellen Auswertungsfunktionen, die später im Export berücksichtigt werden können:
  • Status
    colourGreen
    titleOK
     Nutzung von automatischern Daten-Clustern auf Basis von individuellen Auswahl-Selektionen:
  • Status
    colourGreen
    titleOK
     Ergänzt um Input-Indikatoren-Werte auf Basis der heutigen implementierten Neuronalen-Netz-Datenaufbereitung d.h. Technische Indikatoren mit Werten, Zonenanalyse, Signalstärke, Divergenz-Betrachtungen und vor allem auch echter Signalgenerierung (definierbar z.B. Crossover, Zonen-Entry/Exit-Punkte)
  • Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2724
  • Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2729
  • Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2730

Datenvorverarbeitung

Um die Daten nicht unbereinigt weitergeben zu müssen, sollten verschiedene Basis-Mechanismen bereits vorab umgesetzt werden. Theoretisch ist dies auch nachgelagert durch die ML-Systeme möglich, erfordern hier aber einiges an Wissen bzw. Aufwand.

  • Status
    colourGreen
    titleOK
     Optionale Datenglättung mit X Tagen auf den Schlusskurs
  • Status
    colourGreen
    titleOK
     Optionale Datennormalisierung der %-Entwicklungen in einer definierbaren Range Low/High
  • Status
    colourGreen
    titleOK
     Festlegung der Trainings-und Validierungsmengen-Aufteilung
  • Status
    colourGreen
    titleOK
     Optionale Zufallsverteilung der Datenmengen

  • Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2723

Datenbereitstellung

Um die in ShareHolder erzeugten Trainings-und Validierungsdaten effektiv nutzen zu können, werden verschiedene Mechanismen benötigen, die eine automatisierten Workflow erlauben bzw. eine einfache und effiziente Datennutzung. Grundsätzlich besteht die Annahme, dass die ML.Systeme nicht lokal betrieben werden, sondern in eigenen GPU/TPU-fähigen Systemen laufen bzw. durch Cloud-SaaS-Lösungen eingekauft werden, um maximale Performance zu erreichen. Aus diesem Grund sollten folgende Anforderungen umgesetzt werden:

  • Lokale CSV opt. gepackt als GZ zur direkten nativen Einbindung in H2O, Tensorflow und praktisch in diesem Universalformat in praktisch jedem System
    Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2718
  • Upload und Anbindung an Amazon S3-Buckets, womit die Bereitstellung automatisiert verbunden werden können mit Modell-Entwicklungen ohne die lokale ShareHolder-Installation. Damit sind Linux/Cloud-Systeme leicht einzubinden. Amazon-S3-Buckets d.h. Cloud-Dateien, sollten direkt per Link eingebunden werden können. N
    achfolgend am Beispiel von H20:
    Jira
    serverSupportsystem Shareholder R/2
    serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
    keySHAREHOLDER-2726

  • optional nach Prüfung auch JDBC-Datenbank-Tabellen

Modell-Entwicklungen

Jira
serverSupportsystem Shareholder R/2
serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
keySHAREHOLDER-2721

...

  • Prognose für die weitere Kursentwicklung von Titeln im kurzfristigen Fenster (1d, 3d, 7d, 14d)
  • Nutzung der Prognose-Modellen, um diese für die eigenen Tages/Wochen-Investment-Analysen zu nutzen
  • Als Vision: Nutzung in Algo-Trading-Systemen wie diese z.B. mittels IC-Markets, FXCM umsetzbar sind und von mir auch bereits betrieben werden in einfacherer Form.

Modell-Prognosen (Predictions) nutzbar machen

Jira
serverSupportsystem Shareholder R/2
serverId42383bd3-757c-353a-b9b1-b7fef9b81fb5
keySHAREHOLDER-2722

...

Das Grundprinzip, später für den Nutzer aber in der Technologie nicht offensichtlich, kann dabei in ähnlicher Form wie nachfolgend dargestellt aussehen.
Die ShareHolder-Daten werden dabei als Daten-Stream oder Public-DataSet bereitgestellt. Das Netz wird aufgebaut, trainiert und getestet. Mittels dem trainierten Modell können dann neue Daten über das aufgebaute Netz geliefert werden und so über https:// auch wieder abrufbar gemacht werden.


Roadmap und erste Planungsansätze

Erste Ansätze und Ideen sollen zeitnah (07/08-2018) umgesetzt werden. Mit der 13.16.0 soll bereits die Datenvorbereitung und Export zu H20 erfolgen, so dass damit erste Schritte zu eigenen ML-Modellen gemacht werden können.