10 Veel voorkomende fouten bij gegevenswinning (die u niet zult maken)

10 Veel voorkomende fouten bij gegevenswinning (die u niet zult maken) - dummies

Datamining wordt gedaan met vallen en opstaan, en dus is het maken van fouten voor gegevenswerkers alleen maar natuurlijk. Fouten kunnen waardevol zijn, met andere woorden, tenminste onder bepaalde voorwaarden. Niet alle fouten zijn echter gelijk. Sommige zijn gewoon beter te vermijden. De volgende lijst bevat tien van dergelijke fouten. Als je ze zorgvuldig leest en ze in het geheugen vastlegt, vermijd je mogelijk enkele hobbels in de leercurve:

  • Controle van kwaliteitscontroles van gegevens: De meeste data-mijnwerkers denken dat het ontwikkelen van voorspellende modellen leuker is dan het bekijken van gegevens voor kwaliteitsproblemen. Maar als u gegevenskwaliteitsproblemen niet opmerkt en corrigeert, kunt u waardeloze voorspellingen doen.

  • Ontbreekt het punt: U hebt iets fascinerends ontdekt! Dat is leuk, maar als het niet ook relevant is voor het zakelijke probleem dat je wilde oplossen, nou, het is helemaal niet relevant. Ga weer op weg.

  • Ervan uitgaande dat een patroon in de gegevens een oorzaak-en-gevolgrelatie bewijst: Je verkent een dataset en merkt op dat wanneer Variabele A toeneemt, ook variabele B toeneemt. Dit kan gebeuren omdat Variabele A Variabele B beïnvloedt, of omdat Variabele B Variabele A beïnvloedt. Aan de andere kant kan het zijn dat beide worden beïnvloed door een andere variabele die u niet hebt overwogen. Of het zou een eenmalig toeval kunnen zijn. Wie kan het zeggen?

  • Conclusies te ver reiken: Ga er niet van uit dat de relaties die u observeert in gegevens zich in verschillende omstandigheden zullen herhalen. Als uw gegevens in een koele omgeving zijn verzameld, ga er dan niet vanuit dat alles op dezelfde manier zal werken in een warme fabrieksinstelling.

  • Wedden op resultaten die geen steek houden: Dataminingmethoden zijn informeel en worden meestal niet ondersteund door wetenschappelijke methoden en theorieën, dus uw resultaten zijn op zijn minst zakelijk zinnig. Als er geen verklaring van gezond verstand is voor de resultaten die u presenteert, zal uw uitvoerend management het waarschijnlijk niet serieus nemen, en dat zouden ze ook niet moeten doen.

  • Verliefd worden op een bepaalde modelleermethode: Er is geen enkel type dataminingmodel dat in elke situatie past.

  • Een model in productie zetten zonder afdoende tests: Zet uw bedrijf niet in op een voorspellend model totdat u het met hold-outgegevens en op kleine schaal in het veld hebt getest.

  • Resultaten negeren die u niet bevallen: Als u nu uw gegevens negeert, komt deze op een dag terug en zegt: "Ik heb het u gezegd. "

  • Data mining gebruiken om elke behoefte aan gegevensanalyse aan te pakken: Datamining heeft enorme waarde, maar sommige toepassingen vragen nog steeds om rigoureuze methoden voor gegevensverzameling, formele statistische analyse en wetenschappelijke methoden.

  • Ervan uitgaande dat traditionele technieken voor gegevensanalyse er niet meer toe doen: Raadpleeg het vorige bullet.