The Elements of Statistical Learning

Data Mining, Inference, and Prediction

Author: Trevor Hastie,Robert Tibshirani,Jerome Friedman

Publisher: Springer Science & Business Media

ISBN: 0387216065

Category: Mathematics

Page: 536

View: 962

Release On

During the past decade there has been an explosion in computation and information technology. With it have come vast amounts of data in a variety of fields such as medicine, biology, finance, and marketing. The challenge of understanding these data has led to the development of new tools in the field of statistics, and spawned new areas such as data mining, machine learning, and bioinformatics. Many of these tools have common underpinnings but are often expressed with different terminology. This book describes the important ideas in these areas in a common conceptual framework. While the approach is statistical, the emphasis is on concepts rather than mathematics. Many examples are given, with a liberal use of color graphics. It should be a valuable resource for statisticians and anyone interested in data mining in science or industry. The book’s coverage is broad, from supervised learning (prediction) to unsupervised learning. The many topics include neural networks, support vector machines, classification trees and boosting---the first comprehensive treatment of this topic in any book. This major new edition features many topics not covered in the original, including graphical models, random forests, ensemble methods, least angle regression & path algorithms for the lasso, non-negative matrix factorization, and spectral clustering. There is also a chapter on methods for “wide” data (p bigger than n), including multiple testing and false discovery rates. Trevor Hastie, Robert Tibshirani, and Jerome Friedman are professors of statistics at Stanford University. They are prominent researchers in this area: Hastie and Tibshirani developed generalized additive models and wrote a popular book of that title. Hastie co-developed much of the statistical modeling software and environment in R/S-PLUS and invented principal curves and surfaces. Tibshirani proposed the lasso and is co-author of the very successful An Introduction to the Bootstrap. Friedman is the co-inventor of many data-mining tools including CART, MARS, projection pursuit and gradient boosting.

Kryptografie verständlich

Ein Lehrbuch für Studierende und Anwender

Author: Christof Paar,Jan Pelzl

Publisher: Springer-Verlag

ISBN: 3662492970

Category: Computers

Page: 416

View: 6583

Release On

Das Buch gibt eine umfassende Einführung in moderne angewandte Kryptografie. Es behandelt nahezu alle kryptografischen Verfahren mit praktischer Relevanz. Es werden symmetrische Verfahren (DES, AES, PRESENT, Stromchiffren), asymmetrische Verfahren (RSA, Diffie-Hellmann, elliptische Kurven) sowie digitale Signaturen, Hash-Funktionen, Message Authentication Codes sowie Schlüsselaustauschprotokolle vorgestellt. Für alle Krypto-Verfahren werden aktuelle Sicherheitseinschätzungen und Implementierungseigenschaften beschrieben.

Wahrscheinlichkeitsrechnung und Statistik

Author: Robert Hafner

Publisher: Springer-Verlag

ISBN: 3709169445

Category: Mathematics

Page: 512

View: 1658

Release On

Das Buch ist eine Einführung in die Wahrscheinlichkeitsrechnung und mathematische Statistik auf mittlerem mathematischen Niveau. Die Pädagogik der Darstellung unterscheidet sich in wesentlichen Teilen – Einführung der Modelle für unabhängige und abhängige Experimente, Darstellung des Suffizienzbegriffes, Ausführung des Zusammenhanges zwischen Testtheorie und Theorie der Bereichschätzung, allgemeine Diskussion der Modellentwicklung – erheblich von der anderer vergleichbarer Lehrbücher. Die Darstellung ist, soweit auf diesem Niveau möglich, mathematisch exakt, verzichtet aber bewußt und ebenfalls im Gegensatz zu vergleichbaren Texten auf die Erörterung von Meßbarkeitsfragen. Der Leser wird dadurch erheblich entlastet, ohne daß wesentliche Substanz verlorengeht. Das Buch will allen, die an der Anwendung der Statistik auf solider Grundlage interessiert sind, eine Einführung bieten, und richtet sich an Studierende und Dozenten aller Studienrichtungen, für die mathematische Statistik ein Werkzeug ist.

Statistical Inference for Ergodic Diffusion Processes

Author: Yury A. Kutoyants,Jurij A. Kutojanc

Publisher: Springer Science & Business Media

ISBN: 9781852337599

Category: Mathematics

Page: 481

View: 9852

Release On

An elementary introduction to the field at the start of the book introduces a class of examples - both non-standard and classical - that reappear constantly throughout the book to illustrate the merits and demerits of the procedures as the investigation progresses. The statements of the problems are in the spirit of classical mathematical statistics, and special attention is paid to asymptotically efficient procedures."--Jacket.

Angewandte Statistik

Author: Lothar Sachs

Publisher: Springer-Verlag

ISBN: 3662057476

Category: Mathematics

Page: 849

View: 483

Release On

Auch die 7., völlig neu bearbeitete Auflage dient zum Lernen, Anwenden und Nachschlagen. Da statistische Programmpakete weit verbreitet sind, hat man sich in dieser Auflage mehr auf die Planung von Untersuchungen konzentriert. Darüber hinaus wurden zahlreiche Gebiete ausführlicher behandelt (z.B. Kombinatorik) und neue Methoden wie der Jonckheer-Test neu aufgenommen. Zahlreiche aktualisierte Zusammenhänge und Verweise sowie viele neue Übersichten, Tabellen und Beispiele runden dieses Buch ab.

Ensemble Machine Learning

Methods and Applications

Author: Cha Zhang,Yunqian Ma

Publisher: Springer Science & Business Media

ISBN: 1441993258

Category: Computers

Page: 332

View: 7848

Release On

It is common wisdom that gathering a variety of views and inputs improves the process of decision making, and, indeed, underpins a democratic society. Dubbed “ensemble learning” by researchers in computational intelligence and machine learning, it is known to improve a decision system’s robustness and accuracy. Now, fresh developments are allowing researchers to unleash the power of ensemble learning in an increasing range of real-world applications. Ensemble learning algorithms such as “boosting” and “random forest” facilitate solutions to key computational issues such as face recognition and are now being applied in areas as diverse as object tracking and bioinformatics. Responding to a shortage of literature dedicated to the topic, this volume offers comprehensive coverage of state-of-the-art ensemble learning techniques, including the random forest skeleton tracking algorithm in the Xbox Kinect sensor, which bypasses the need for game controllers. At once a solid theoretical study and a practical guide, the volume is a windfall for researchers and practitioners alike.

Data mining

praktische Werkzeuge und Techniken für das maschinelle Lernen

Author: Ian H. Witten,Eibe Frank

Publisher: N.A

ISBN: 9783446215337

Category:

Page: 386

View: 5482

Release On


Statistik-Workshop für Programmierer

Author: Allen B. Downey

Publisher: O'Reilly Germany

ISBN: 3868993436

Category: Computers

Page: 160

View: 782

Release On

Wenn Sie programmieren können, beherrschen Sie bereits Techniken, um aus Daten Wissen zu extrahieren. Diese kompakte Einführung in die Statistik zeigt Ihnen, wie Sie rechnergestützt, anstatt auf mathematischem Weg Datenanalysen mit Python durchführen können. Praktischer Programmier-Workshop statt grauer Theorie: Das Buch führt Sie anhand eines durchgängigen Fallbeispiels durch eine vollständige Datenanalyse -- von der Datensammlung über die Berechnung statistischer Kennwerte und Identifikation von Mustern bis hin zum Testen statistischer Hypothesen. Gleichzeitig werden Sie mit statistischen Verteilungen, den Regeln der Wahrscheinlichkeitsrechnung, Visualisierungsmöglichkeiten und vielen anderen Arbeitstechniken und Konzepten vertraut gemacht. Statistik-Konzepte zum Ausprobieren: Entwickeln Sie über das Schreiben und Testen von Code ein Verständnis für die Grundlagen von Wahrscheinlichkeitsrechnung und Statistik: Überprüfen Sie das Verhalten statistischer Merkmale durch Zufallsexperimente, zum Beispiel indem Sie Stichproben aus unterschiedlichen Verteilungen ziehen. Nutzen Sie Simulationen, um Konzepte zu verstehen, die auf mathematischem Weg nur schwer zugänglich sind. Lernen Sie etwas über Themen, die in Einführungen üblicherweise nicht vermittelt werden, beispielsweise über die Bayessche Schätzung. Nutzen Sie Python zur Bereinigung und Aufbereitung von Rohdaten aus nahezu beliebigen Quellen. Beantworten Sie mit den Mitteln der Inferenzstatistik Fragestellungen zu realen Daten.

Markov Chain Monte Carlo - Methoden: Herleitung, Beweis und Implementierung

Author: Thomas Plehn

Publisher: diplom.de

ISBN: 3956849515

Category: Mathematics

Page: 53

View: 565

Release On

In seiner Arbeit beschäftigt sich der Autor mit der ‘Markov Chain Monte Carlo‘, auch abgekürzt als MCMC. Dabei handelt es sich um eine Monte Carlo Methode. Allen Monte Carlo Methoden ist gemein, dass sie von einer mehr oder minder komplizierten Verteilung zufällige Szenarien erzeugen. Diese Szenarien werden dann genutzt um Aussagen über Erwartungswerte oder andere Kennzahlen der Verteilung zu treffen. Diese Aussagen sind natürlich nur zu gebrauchen, wenn man sehr viele zufällig erzeugte Szenarien auswertet. Die Methode kommt also immer dann zum Einsatz, wenn es nicht möglich ist, aus der Verteilung der Szenarien direkt Rückschlüsse auf die statistischen Kennzahlen der Verteilung zu ziehen, weder auf analytischem Wege, noch durch numerische Integration (bei sehr vielen Dimensionen steigt der Aufwand rapide an). Markov Chain Monte Carlo ist nun eine spezielle Monte Carlo Methode unter Zuhilfenahme von Markovketten. Diese kommt immer dann zum Einsatz, wenn es nicht möglich ist, von einer Verteilung auf einfache Weise Szenarien zu erzeugen. Eine Markovkette fängt bei einem Zustand an und geht von einem bestimmten Zustand mit einer bestimmten Wahrscheinlichkeit zu einem anderen Zustand über. Diese Übergangswahrscheinlichkeiten stehen in einer Übergangsmatrix. Der Knackpunkt ist nun, dass diese Form der Zustandsgenerierung oft einfacher zu implementieren ist, als direkt auf eine Verteilung zurückzugreifen. In der Arbeit gibt es mehrere konkrete Beispiele für den Einsatz solcher Methoden. Quelltexte der Implementierungen sind beigefügt.


R in a Nutshell

Author: Joseph Adler

Publisher: O'Reilly Germany

ISBN: 3897216507

Category: Computers

Page: 768

View: 8871

Release On

Wozu sollte man R lernen? Da gibt es viele Gründe: Weil man damit natürlich ganz andere Möglichkeiten hat als mit einer Tabellenkalkulation wie Excel, aber auch mehr Spielraum als mit gängiger Statistiksoftware wie SPSS und SAS. Anders als bei diesen Programmen hat man nämlich direkten Zugriff auf dieselbe, vollwertige Programmiersprache, mit der die fertigen Analyse- und Visualisierungsmethoden realisiert sind – so lassen sich nahtlos eigene Algorithmen integrieren und komplexe Arbeitsabläufe realisieren. Und nicht zuletzt, weil R offen gegenüber beliebigen Datenquellen ist, von der einfachen Textdatei über binäre Fremdformate bis hin zu den ganz großen relationalen Datenbanken. Zudem ist R Open Source und erobert momentan von der universitären Welt aus die professionelle Statistik. R kann viel. Und Sie können viel mit R machen – wenn Sie wissen, wie es geht. Willkommen in der R-Welt: Installieren Sie R und stöbern Sie in Ihrem gut bestückten Werkzeugkasten: Sie haben eine Konsole und eine grafische Benutzeroberfläche, unzählige vordefinierte Analyse- und Visualisierungsoperationen – und Pakete, Pakete, Pakete. Für quasi jeden statistischen Anwendungsbereich können Sie sich aus dem reichen Schatz der R-Community bedienen. Sprechen Sie R! Sie müssen Syntax und Grammatik von R nicht lernen – wie im Auslandsurlaub kommen Sie auch hier gut mit ein paar aufgeschnappten Brocken aus. Aber es lohnt sich: Wenn Sie wissen, was es mit R-Objekten auf sich hat, wie Sie eigene Funktionen schreiben und Ihre eigenen Pakete schnüren, sind Sie bei der Analyse Ihrer Daten noch flexibler und effektiver. Datenanalyse und Statistik in der Praxis: Anhand unzähliger Beispiele aus Medizin, Wirtschaft, Sport und Bioinformatik lernen Sie, wie Sie Daten aufbereiten, mithilfe der Grafikfunktionen des lattice-Pakets darstellen, statistische Tests durchführen und Modelle anpassen. Danach werden Ihnen Ihre Daten nichts mehr verheimlichen.

Data Analysis and Data Mining

An Introduction

Author: Adelchi Azzalini,Bruno Scarpa

Publisher: Oxford University Press

ISBN: 0199942714

Category: Business & Economics

Page: 288

View: 5070

Release On

An introduction to statistical data mining, Data Analysis and Data Mining is both textbook and professional resource. Assuming only a basic knowledge of statistical reasoning, it presents core concepts in data mining and exploratory statistical models to students and professional statisticians-both those working in communications and those working in a technological or scientific capacity-who have a limited knowledge of data mining. This book presents key statistical concepts by way of case studies, giving readers the benefit of learning from real problems and real data. Aided by a diverse range of statistical methods and techniques, readers will move from simple problems to complex problems. Through these case studies, authors Adelchi Azzalini and Bruno Scarpa explain exactly how statistical methods work; rather than relying on the "push the button" philosophy, they demonstrate how to use statistical tools to find the best solution to any given problem. Case studies feature current topics highly relevant to data mining, such web page traffic; the segmentation of customers; selection of customers for direct mail commercial campaigns; fraud detection; and measurements of customer satisfaction. Appropriate for both advanced undergraduate and graduate students, this much-needed book will fill a gap between higher level books, which emphasize technical explanations, and lower level books, which assume no prior knowledge and do not explain the methodology behind the statistical operations.

Medizinische Statistik

Author: Hans J. Trampisch,Jürgen Windeler

Publisher: Springer-Verlag

ISBN: 364256996X

Category: Mathematics

Page: 376

View: 5458

Release On

"Statistiken sind merkwürdige Dinge ...", dies wird so mancher Mediziner denken, wenn er sich mit der Biometrie befaßt. Sei es im Rahmen seiner Ausbildung oder im Zuge wissenschaftlicher oder klinischer Studien, Kenntnisse der Statistik und Mathematik sind unentbehrlich für die tägliche Arbeit des Mediziners. Ziel dieses Lehrbuches ist es, den Mediziner systematisch an biometrische Terminologie und Arbeitsmethoden heranzuführen, um ihn schließlich mit den Grundlagen der Wahrscheinlichkeitsrechung vertraut zu machen. Nach der Lektüre dieses Buches hält der Leser ein Werkzeug in den Händen, das ihm bei der Lösung medizinscher Fragestellungen hilft ebenso wie bei der Beschreibung von Ergebnissen wissenschaftlicher Studien und natürlich bei der Doktorarbeit!

Angewandte Zeitreihenanalyse mit R

Author: Rainer Schlittgen

Publisher: Walter de Gruyter GmbH & Co KG

ISBN: 311041399X

Category: Business & Economics

Page: 329

View: 7906

Release On

Dieses Buch präsentiert die wichtigsten Modelle und Verfahren der Zeitreihenanalyse. Der Schwerpunkt liegt auf dem Zeitbereich; speziell werden explorative Methoden, ARMA-Modelle mit ihren Erweiterungen, Prognosemethoden und Zeitreihenregressionen behandelt. Die Neuauflage wurde akualisiert und unter anderem um ein Kapitel der Long-Memory-Prozesse erweitert.

Inside Big Data

Unsere Daten zeigen, wer wir wirklich sind

Author: Christian Rudder

Publisher: Carl Hanser Verlag GmbH Co KG

ISBN: 3446444602

Category: Political Science

Page: 304

View: 5487

Release On

In seinem New-York-Times-Bestseller zeigt Christian Rudder erstmals, wie wir von Big Data profitieren können: indem wir menschlichen Überzeugungen und Vorlieben durch die Analyse großer Datenmengen auf die Spur kommen. Der Gründer der Dating-Seite "OkCupid" hat seine anonymisierten Daten danach befragt, was wir mögen, was wir ablehnen, was wir uns insgeheim wünschen, ob unsere politischen Ansichten unsere Partnerbeziehung verändern – und wie rassistisch wir wirklich sind. "Inside Big Data" bedeutet einen Paradigmenwechsel zu einer konstruktiven Datenauswertung, unabhängig von Konzernen wie Google, und verrät uns Erstaunliches darüber, wer wir wirklich sind.


Die Monte-Carlo-Methode

Beispiele unter Excel VBA

Author: Harald Nahrstedt

Publisher: Springer-Verlag

ISBN: 3658101490

Category: Mathematics

Page: 45

View: 1995

Release On

Harald Nahrstedt zeigt hier den pragmatisch technischen und weniger den wissenschaftlichen Ansatz, wie Excel mit seinen Programmiermöglichkeiten sich immer mehr zu einem universellen Arbeitsmittel entwickelt. So ist die Simulation mit Hilfe von Pseudozufallszahlen ein schneller und preiswerter Weg zu fachlichen Aussagen. Den Rahmen dieser Abhandlung bildet der geschichtliche Hintergrund.

Datenanalyse mit Python

Auswertung von Daten mit Pandas, NumPy und IPython

Author: Wes McKinney

Publisher: O'Reilly

ISBN: 3960102143

Category: Computers

Page: 542

View: 9664

Release On

Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.Aus dem Inhalt:Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative ComputingLernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennenSetzen Sie die Datenanalyse-Tools der pandasBibliothek einVerwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von DatenErstellen Sie interformative Visualisierungen mit matplotlibWenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassenAnalysieren und manipulieren Sie verschiedenste Zeitreihen-DatenFür diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.

Big Data in der Praxis

Beispiellösungen mit Hadoop und NoSQL. Daten speichern, aufbereiten, visualisieren

Author: Jonas Freiknecht

Publisher: Carl Hanser Verlag GmbH Co KG

ISBN: 3446441778

Category: Computers

Page: 448

View: 7070

Release On

BIG DATA IN DER PRAXIS // - Für Analysten, BI-Verantwortliche, Data-Scientists, Consultants - Auf der DVD finden Sie: 18 fertige Projekte, die im Buch Schritt für Schritt entwickelt werden; Videotutorials u.a. zur Installation von Hadoop, Hive, HBase (Gesamtdauer: 80 Min.); Testdatensätze für die Wissensdatenbank Dieses Buch bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und bekommen aufgezeigt, wie Sie bestehende Systeme vorausschauend auf die mit dem Big Data-Trend einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit dem Autor werden Sie ganz konkret Schritt für Schritt viele kleinere Projekte aufbauen bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. AUS DEM INHALT // Einführung rund um Big Data // Hadoop installieren, konfigurieren & bedienen // HDFS, Map-Reduce & YARN: Daten speichern und verarbeiten // Hadoop-Ecosystem: Überblick über dessen Komponenten // Einführung in NoSQL // HBase installieren, einrichten & auf Daten zugreifen // Data-Warehousing mit Apache Hive // HiveQL als Abfragesprache, Hive Security, Hive & JDBC // Datenimport aus relationalen Datenbanken mit Sqoop // Big Data-Visualisierung: Diagrammarten, Tipps & Trends // Visualisierungs-Frameworks im Vergleich // D3.js: Entwicklung einiger Beispieldiagramme // Entwicklung einer abschließenden Big Data-Analyse-Lösung // Troubleshooting für die Arbeit mit Hadoop, Hive & HBase

Visualize This!

Author: Nathan Yau

Publisher: John Wiley & Sons

ISBN: 3527760229

Category: Statistics / Graphic methods / Data processing

Page: 422

View: 3287

Release On

A guide on how to visualise and tell stories with data, providing practical design tips complemented with step-by-step tutorials.