
{"id":1699,"date":"2012-09-09T03:55:03","date_gmt":"2012-09-09T01:55:03","guid":{"rendered":"http:\/\/naukowy.blog.polityka.pl\/?p=1699"},"modified":"2013-02-11T17:58:48","modified_gmt":"2013-02-11T16:58:48","slug":"kopalnia-dla-przyszlosci","status":"publish","type":"post","link":"https:\/\/blog.polityka.pl\/naukowy\/2012\/09\/09\/kopalnia-dla-przyszlosci\/","title":{"rendered":"Kopalnia dla przysz\u0142o\u015bci"},"content":{"rendered":"<p><a href=\"\/wp-content\/uploads\/2012\/09\/alchemista.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-1700\" title=\"alchemista\" src=\"\/wp-content\/uploads\/2012\/09\/alchemista.jpg\" alt=\"\" width=\"500\" height=\"412\" srcset=\"\/naukowy\/wp-content\/uploads\/2012\/09\/alchemista.jpg 500w, \/naukowy\/wp-content\/uploads\/2012\/09\/alchemista-300x247.jpg 300w\" sizes=\"(max-width: 500px) 100vw, 500px\" \/><\/a><\/p>\n<p>W jednym z niedawnych wyda\u0144 &#8222;American Scientist&#8221; przeczyta\u0142em refleksje Fredericka Cohana wywo\u0142ane obejrzeniem filmu &#8222;Moneyball&#8221;. Film jest o baseballu i zastosowaniu rewolucyjnej w swoim czasie zmiany analizy statystycznej osi\u0105gni\u0119\u0107 sportowc\u00f3w, kt\u00f3ra sprawi\u0142a, \u017ce podupadaj\u0105cy klub trafi\u0142 na szczyt ligi. Dalej autor na tej bazie snuje rozwa\u017cania o data miningu i to jest w\u0142a\u015bciwy temat jego artyku\u0142u.<\/p>\n<p><!--more--><\/p>\n<p>Du\u017c\u0105 cz\u0119\u015b\u0107 artyku\u0142u zajmuj\u0105 bezpo\u015brednie nawi\u0105zania do filmu i baseballu. Filmu nie widzia\u0142em, wy\u0142\u0105czywszy jakie\u015b zajawki, a na baseballu znam si\u0119 niespecjalnie. Swego czasu sportowe analogie do kt\u00f3rej\u015b z ameryka\u0144skich gier z pi\u0142k\u0105 (nie pami\u0119tam ju\u017c kt\u00f3rej) snu\u0142 te\u017c Stephen Jay Gould, ale jako\u015b to przebrn\u0105\u0142em. Tu Cohan rozpisuje si\u0119 o zaletach data miningu, ale tak\u017ce o jego ograniczeniach. Zalety s\u0105 do\u015b\u0107 oczywiste &#8211; jest mn\u00f3stwo danych, kt\u00f3re same w sobie maj\u0105 warto\u015b\u0107 niewiele ponadanegedotyczn\u0105, ale zebrane \u0142\u0105cznie pozwalaj\u0105 na wy\u0142owienie istotnych statystycznie wniosk\u00f3w. Jest te\u017c ca\u0142e mn\u00f3stwo danych, kt\u00f3rych pierwotni wytw\u00f3rcy nie byli w stanie opracowa\u0107 z r\u00f3\u017cnych wzgl\u0119d\u00f3w. Chocia\u017cby dlatego, \u017ce skupiali si\u0119 na innych aspektach. Cohan pisze o poszukiwaniu zwi\u0105zk\u00f3w mi\u0119dzy skokami ewolucyjnymi bakterii a zmianami zasolenia w\u00f3d, w kt\u00f3rych one \u017cy\u0142y. Problem w tym, \u017ce ewolucjoni\u015bci badaj\u0105c zmiany w genotypach i fenotypach bakterii nie mierz\u0105 zasolenia albo mierz\u0105 je niezbyt dok\u0142adnie, a ekolodzy badaj\u0105c wymagania \u015brodowiskowe bakterii nie badaj\u0105 ich zmian ewolucyjnych.<\/p>\n<p>Cohan postuluje wi\u0119c, aby naukowcy badaj\u0105c jakie\u015b zjawiska nie byli kr\u00f3tkowzroczni, lecz tak projektowali badania, by nadawa\u0142y si\u0119 dla przysz\u0142ych naukowc\u00f3w do ponownego wykorzystania pod innym k\u0105tem, metodami data miningu. Postulat pi\u0119kny, ale kompletnie pozbawiony szans na realizacj\u0119. Przecie\u017c naukowcy s\u0105 &#8222;kr\u00f3tkowzroczni&#8221; nie bez powod\u00f3w, a powody te trudno przeskoczy\u0107 ot tak. Po pierwsze, sk\u0105d naukowiec ma wiedzie\u0107, \u017ce badaj\u0105c czynniki ze zbioru {a, b, c}, powinien do zbioru dorzuci\u0107 jeszcze &#8222;d&#8221;, bo kiedy\u015b przyda si\u0119 to komus, kto odkryje istotno\u015b\u0107 czynnika &#8222;d&#8221;? Gdyby podejrzewa\u0142, \u017ce czynnik &#8222;d&#8221; jest wa\u017cny, toby sam bada\u0142 jego wp\u0142yw, a nie pozostawia\u0142 innym okazj\u0119 do prze\u0142omowego odkrycia. Badanie za\u015b na wszelki wypadek wszystkiego, co jest pod r\u0119k\u0105 jest nierealistyczne, zw\u0142aszcza w tak materialnej nauce, jak ekologia. Zdarza si\u0119, \u017ce aparatura pozwalaj\u0105ca zmierzy\u0107 st\u0119\u017cenie &#8211; powiedzmy &#8211; potasu, pozwala te\u017c od razu zmierzy\u0107 poziom sodu. Tak w istocie jest w badaniach wykorzystuj\u0105cych fotometri\u0119 p\u0142omieniow\u0105. Wtedy kto\u015b badaj\u0105cy rol\u0119 potasu mo\u017ce przy okazji zanotowa\u0107 te\u017c wyniki sodu (powiedzmy, \u017ce samo notowanie kolejnych wynik\u00f3w zajmuje znikom\u0105 ilo\u015b\u0107 czasu i energii, co jest jednak uproszczeniem). Jednak ju\u017c dla zbadania wapnia trzeba nieco inaczej przygotowa\u0107 pr\u00f3bk\u0119, wi\u0119c robienie tego tylko dlatego, \u017ce kiedy\u015b kto\u015b mo\u017ce to do czego\u015b wykorzysta\u0107, nie jest oczywiste. Pami\u0119tajmy te\u017c, \u017ce ka\u017cdy odczynnik kosztuje, a naukowiec musi si\u0119 mniej lub bardziej dok\u0142adnie rozliczy\u0107 przed grantodawc\u0105.<\/p>\n<p>Kwesti\u0119 tego, \u017ce naukowiec mo\u017ce po prostu zazdro\u015bci\u0107 wytworzonej przez siebie informacji, kt\u00f3rej nie jest w tym momencie stanie wykorzysta\u0107, na razie pomin\u0119. Za\u0142\u00f3\u017cmy roboczo, \u017ce muzyk, kt\u00f3ry uwa\u017ca, \u017ce kto\u015b kopiuj\u0105c jego muzyk\u0119 go okrada, zas\u0142uguje na zrozumienie i ochron\u0119 praw intelektualnych, a naukowiec powinien w imi\u0119 Post\u0119pu godzi\u0107 si\u0119 na kopiowanie wypracowanej przez niego wiedzy.<\/p>\n<p>PS. Wiem, \u017ce data mining jest poj\u0119ciem mocno zadomowionym ju\u017c w polskiej nauce, zw\u0142aszcza w informatyce stosowanej, ale nie kojarz\u0119 pr\u00f3b spolszczenia. Kopalnictwo danych?<\/p>\n<p><strong>Piotr Panek<\/strong><\/p>\n<p><em>Fot. wikipedysta Mattes. licencja CC-PD-Mark. \u0179r\u00f3d\u0142o: Wikimedia Commons<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>W jednym z niedawnych wyda\u0144 &#8222;American Scientist&#8221; przeczyta\u0142em refleksje Fredericka Cohana wywo\u0142ane obejrzeniem filmu &#8222;Moneyball&#8221;. Film jest o baseballu i zastosowaniu rewolucyjnej w swoim czasie zmiany analizy statystycznej osi\u0105gni\u0119\u0107 sportowc\u00f3w, kt\u00f3ra sprawi\u0142a, \u017ce podupadaj\u0105cy klub trafi\u0142 na szczyt ligi. Dalej autor na tej bazie snuje rozwa\u017cania o data miningu i to jest w\u0142a\u015bciwy temat jego [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[58,6,29],"tags":[],"_links":{"self":[{"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/posts\/1699"}],"collection":[{"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/comments?post=1699"}],"version-history":[{"count":5,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/posts\/1699\/revisions"}],"predecessor-version":[{"id":2090,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/posts\/1699\/revisions\/2090"}],"wp:attachment":[{"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/media?parent=1699"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/categories?post=1699"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.polityka.pl\/naukowy\/wp-json\/wp\/v2\/tags?post=1699"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}