日曜日, 1月 11, 2015

データサイエンス

 ビッグデータとともによく見聞きするのがデータサイエンスという言葉。ビックデータに関しては、Volume (大容量)、Variety(多様性)、Velocity(速度)の3Vの特徴をもつデータだとされる。最近では、Veracity(正確さ)が加わって4Vになることもある。言葉遊びではあるが一応定義のようなものがある。
 一方、データサイエンスとは何か?これに関しては研究者の間でも統一的な見方がない。統計学や機械学習とはそもそも何が違うのか?ビックデータとはどういう関係にあるのか。こういったことを考えながら、データサイエンスなる科学がよちよち歩きを始めたところである
 「データサイエンス講義」という本にいくつかヒントがあったのでそれを記す。
  • データサイエンスがやること
    • データからパターンを発掘する (かつてはデータマイニングという言葉が流行っていた)
    • データを価値に変換する
    • データに基づいて現実世界の問題を解決する
  • データサイエンスとは手法の詰め合わせではない
  • データサイエンティストとは、データに精通し、統計的な思考ができ、コーディングで問題が解ける人
 これでもまだデータサイエンスの全体像ははっきりしないが、何となく姿は見えてきた。自分が取り組んでいるのオンライン行動の定量化は計算社会科学と呼ばれ、この本によれば、それはデータサイエンスの一部とされる。
 今、データサイエンスから目が離せない。

追記:データの収集と分析はどんな分野にもプロセスの一部として入っている。それらを必要としない科学はない。そして、データの収集と分析にはその分野独特の知識が要る。したがって、データサイエンスなるものが単独の学問として成立するのか、という疑問はいつもつきまとう。

0 件のコメント: