多メディアWeb解析基盤の構築及び 社会分析ソフトウェアの...

27
文部科学省 次世代IT基盤構築のための研究開発「Web社会分析基盤ソフトウェアの研究開発」 多メディアWeb解析基盤の構築及び 多メディアWeb解析基盤の構築及び 多メディアWeb解析基盤の構築及び 社会分析ソフトウェアの開発 社会分析ソフトウェアの開発 国立情報学研究所 国立情報学研究所 佐藤真一 佐藤真一 東京大学 東京大学 豊田正史、喜連川優 豊田正史、喜連川優 早稲田大学 早稲田大学 山名早人 山名早人 1

Transcript of 多メディアWeb解析基盤の構築及び 社会分析ソフトウェアの...

文部科学省 次世代IT基盤構築のための研究開発「Web社会分析基盤ソフトウェアの研究開発」

多メディアWeb解析基盤の構築及び 社会分析ソフトウェアの開発

多メディアWeb解析基盤の構築及び多メディアWeb解析基盤の構築及び 社会分析ソフトウェアの開発社会分析ソフトウェアの開発

国立情報学研究所国立情報学研究所

佐藤真一佐藤真一

東京大学東京大学

豊田正史、喜連川優豊田正史、喜連川優

早稲田大学早稲田大学

山名早人山名早人

1

目次

全体概要

進捗状況

研究開発成果

独創性・優位性

今後の研究開発計画

研究開発体制

成果の利活用

人材育成

2

全体概要

3

0

5,000

10,000

15,000

20,000

25,000

30,000

35,000

2008 2009 2010 2011 2012 2013

Traffic (PB/Month)

Global Consumer Internet Traffic(Cisco VNI, 2009)

Ambient VideoInternet Video to TV

Internet Video to PCInternet Video Communications

Internet VoiceInternet GamingFile Sharing

Web/Email

0

200

400

600

800

1000

1200

2009/4/25

2009/4/27

2009/4/29

2009/5/1

2009/5/3

2009/5/5

2009/5/7

2009/5/9

2009/5/11

2009/5/13

2009/5/15

2009/5/17

2009/5/19

2009/5/21

2009/5/23

2009/5/25

2009/5/27

2009/5/29

2009/5/31

インフルエンザ報道時間(Meta-TV調べ)

02000400060008000

1000012000

2009/4/25

2009/4/27

2009/4/29

2009/5/1

2009/5/3

2009/5/5

2009/5/7

2009/5/9

2009/5/11

2009/5/13

2009/5/15

2009/5/17

2009/5/19

2009/5/21

2009/5/23

2009/5/25

2009/5/27

2009/5/29

2009/5/31

インフルエンザに関するブログ記事数

動画トラフィックの増加 実社会との密接な関連

目的

社会学、言語学、リスク管理、マーケティング等多様な社会分析ニーズに応じるために、膨大な多メ

ディアWeb 情報を収集、蓄積し多様な解析を可能とする多メディアWeb情報解析基盤の構築と社会

分析ソフトウェアの研究開発並びに実証を行う

背景

Web情報は人類社会の観測・調査・解析において新価値創出のために必要不可欠な情報源多メディア化が急速に進むと同時に、実世界情報と相互に及ぼし合う影響も拡大放送映像との密接な相互作用

課題

多メディアWeb情報の収集・蓄積、多メディア内容解析、高並列計算環境上での大容量・高スループッ

ト解析基盤、有効な社会解析ソフトウェアの実現が必須

単一メディアではない複数メディアの

有機的な統合による解析は世界初

進捗状況

21-22年度で、多メディアWeb基盤技術ならびに多メディアWeb要素技術において、必要となるツールの基本設計とプロトタイピングが終了

あわせて実証アプリケーションのプロトタイプによる検証も進んでいる

予定通りに進捗しており、いよいよ、開発したツールを組み合わせて多メディアWeb解析による社会分析の本格的実証アプリケーション構築の準備がまさに整った状態

4

研究開発項目及び小項目 平成 21 年度 平成 22 年度 平成 23 年度 平成 24 年度

(1) 多メディア Web 解析要

素技術に関する研究

(1-1) 画像・映像キーワ

ード抽出技術に関する

研究

(1-2) 画像・映像リンケ

ージ技術に関する研究

(1-3) 多次元解析高速

化技術に関する研究

(1-4) 多メディア Web 分

析・可視化技術に関す

る研究

① 多メディア Web ト

ピック抽出手法

② 多メディア間の情報

伝搬解析手法

③ 解析結果の可視化

手法

(2) 多メディア Web 基盤技

術に関する研究

(2-1) 多メディア Web 収

集・蓄積技術に関する

研究

(2-2) データインテンシ

ブスケジューリング技術

に関する研究

(3) 多メディア Web 統合処

理に関する研究

(4) 多メディア Web 解析の

実証評価に関する研究

5 月1日

Web 上多メディア情報への

適応と API 構築 スケーラビ

リティ向

上・高度化

Web 上多メディア情報への

適応と API 構築

スケーラビ

リティ向

上・高度化

Web 基盤へ

の実装 基本設計

実証実験・評価

評価 手法検討

小規模実証実験

詳細設計 実証評価

実証評価

実証評価

基本設計・基礎実験

詳細設計・部分実装

実装・基本評価

高度化・詳細評価

基本設計・

基礎実験

基本設計・基礎実験 実装・評価

方式検討・

予備評価 基本設計・

基礎実験 実装・基本

評価 大規模化・

詳細評価

基本設計 実装

基本設計 プロトタイプ実装

基本検討・予備評価

詳細検討・

プロトタイ

プ実装

研究開発成果

(1)

多メディアWeb解析要素技術に関する研究

達成目標: 先進的な技術、社会分析に耐えうる高精度、Webスケールに耐えるスケーラビリティ(1-1)

画像・映像キーワード抽出技術に関する研究

(1-2)

画像・映像リンケージ技術に関する研究

(1-3)

多次元解析高速化技術に関する研究

(1-4)

多メディアWeb分析・可視化技術に関する研究

(2)

多メディアWeb基盤技術に関する研究

達成目標: 類を見ない巨大なアーカイブ、スケーラブルな処理を支える処理基盤(2-1)

多メディアWeb収集・蓄積技術に関する研究

(2-2)

データインテンシブスケジューリング技術に関する研究

(3)

多メディアWeb統合処理に関する研究

達成目標: 解析要素技術と基盤技術を統合利用するプラットフォームの実現

(4)

多メディアWeb解析の実証評価に関する研究

達成目標: 様々な分野で利用できる社会分析ソフトウェアの実現

6

世界最高水準の性能並び

に処理速度を達成先進的な技術によりトップ

国際会議採択や受賞等

世界最大級のWeb・放送

映像アーカイブリアルタイムtwitter解析可

本年度より実施

プロトタイプによる解析技

術・基盤技術の実証本年度以降本格実証実験

研究開発成果

(1)

多メディアWeb解析要素技術に関する研究

達成目標: 先進的な技術、社会分析に耐えうる高精度、Webスケールに耐えるスケーラビリティ(1-1)

画像・映像キーワード抽出技術に関する研究

(1-2)

画像・映像リンケージ技術に関する研究

(1-3)

多次元解析高速化技術に関する研究

(1-4)

多メディアWeb分析・可視化技術に関する研究

(2)

多メディアWeb基盤技術に関する研究

達成目標: 類を見ない巨大なアーカイブ、スケーラブルな処理を支える処理基盤(2-1)

多メディアWeb収集・蓄積技術に関する研究

(2-2)

データインテンシブスケジューリング技術に関する研究

(3)

多メディアWeb統合処理に関する研究

達成目標: 解析要素技術と基盤技術を統合利用するプラットフォームの実現

(4)

多メディアWeb解析の実証評価に関する研究

達成目標: 様々な分野で利用できる社会分析ソフトウェアの実現

7

画像・映像キーワード抽出技術 (画像・映像意味分類技術)

与えられたショットに対し、写っている物体種別、情景種別、画像・映像の種別などに基づいて、自動的に概念レベルの意味分類を行う技術(車、建物、スポーツなど)

正解データつきの学習用映像(数百時間規模)で意味分類器を学習

インターネット映像でも高性能となることを確認済み

8

爆発・炎、車 歩く・走る、建

物、車

爆発・炎、建物、

歩く・走る、山、

スポーツ

スポーツ、歩

く・走る

水辺、山、車 飛行機 顔

キーワード付与結果例

局所特徴量のペアを使うことにより飛躍的に認識精度を向上

提案手法により少ないコードブックサイズで

最高の認識精度

コンピュータビジョンにおける最高峰の国際会議ICCV2011に採択Satoh et al. Compact Correlation Coding for Visual Object Categorization

画像・映像キーワード抽出技術 (顔検出・追跡・照合)

顔検出・追跡により映像から顔情報を抽出局所特徴に基づく高精度の顔照合技術10年分のニュース映像から6,000万顔画像、140人のデータベースを構築未知の顔との照合・名前推定を実現

9

N I I b est ru n

高精

世界15チーム

クエリ 検索結果

TRECVID2010 INSにおいて

左記クエリのみを手掛かりに180時間映像から上記ショットを

正しく検索ニュース

映像DB

Web上顔画像とNHKニュース10年分(6,000万

顔画像)を照合し、顔の同定ならびに放送映

像中の出現時間・言及数を解析

TRECVID2010インスタンスサーチタスク

(人物・物体検索)にて世界1位

画像・映像リンケージ技術 (映像コピー検出)

局所特徴量に基づく手法であり、部分的隠れや映像編集などに頑健大局特徴と局所特徴の利点を併せ持ったグローカル特徴空間的配置を考慮したハッシュによる高速照合きわめて高速なコピー検出が可能

10低

速高

速低精度高精度

NII

離散化された局所特徴空間 バケット

1, 3 & 11

5, 6 & 14

5, 12 & 16

グローカル特徴挿入

グローカル特徴

1 2

3 4

5 6

7 8

9 10

11

12

13

14

15

16

①約150特徴点を抽出

②近傍の3点をすべて抽出

③各3点に対応する特徴空間のグリッド位置からインデックスの三つ組を算出

④三つ組に対応するバケットにグローカル特徴を投入画像・映像コピー検出処理の概要

Web画像と放送映像とのリンケージ例

TRECVID2009映像コピー検出タスク

高精度・世界最高速

blog上の画像(一部)放送映像中で発見された照合フレーム画像

画像・映像リンケージ技術 (コマーシャル映像)

映像アーカイブ中に繰り返し現れる15-30秒の映像はCMであるとして検出ならびに同定

高精度検出適合率93.9%

検出再現率99.5%

位置特定精度98.1%

超高速:1か月間分の映像の処理時間は60分以下

映像アーカイブ中のCMの出現に基づく各種統計量を算出可能

11

二進数列

時間的ハッシュヒストグラム

CM

放送映像

超高速コマーシャル検出・同定処理の概要

コマーシャルに基づくマーケティング戦略の解析

高精度・世界最高速

CM CM CMCM

多次元解析高速化技術

LittleWeb

Webリンク圧縮状態での構造解析を実現ノード圧縮率52%、エッジ圧縮率23%を達成

既存手法に追加して適用でき、圧縮率で最も優れる。PageRank算出では、解析時間67%削減

Resizable-LSH

高次元データ高速類似検索の実現既存手法(LSH)比 1000倍(9365次元データ)

リアルタイムでの高次元データ解析を可能に

1212

超球1つ1つがハッシュ値1つ1つに対応する

閾値範囲内と重なる超球内のデータ一覧を取得する

データ

超球

探索範囲

Resizable-LSHでのデータ、超球、探索範囲の関係

0.000  0.022 0.078 

0.312 

0.576 

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

0.000 

0.100 

0.200 

0.300 

0.400 

0.500 

0.600 

0.700 

0.800 

0.900 

1.000 

0.00  0.20  0.40  0.60  0.80  1.00 

圧縮

誤差

閾値

誤差

ノード圧縮率

エッジ圧縮率

22 11 22

22 22 11

0.001

0.01

0.1

1

10

100

1000

10000

100000

0 0.5 1 1.5 2

検索

所要

時間

(秒,

対数

表示)

検索時の閾値 r

従来手法(LSH)比平均約1,000倍速

既存手法 : 約2時間(テーブル再構築時間含む)

提案手法 : 約5.4秒対象 : tweetデータ(半日分)特徴量 : 文字1-gram(9,365次元)規模 : 約50万件

SR‐tree

既存手法

提案手法

圧縮例:類似ノードの統合

LittleWeb:データ工学フォーラムDEIM発表Resizable-LSH:情報処理学会研究会(2件)発表

多メディアWeb分析・可視化技術 (高速固有表現抽出アルゴリズム)

大規模ウェブデータを社会分析に利用可能とする

人物名や製品名などの固有表現の超高速抽出技術

13

アルゴリズム 結合タグ Supertag

Viterbi 77 1.1

CarpeDiem 51 0.26

提案手法 1600 300

解析速度(文数/秒)ABCD

BCD

A

CD

AB

D

AB

C

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

縮退

健康上の理由により療養休暇中のアップルのCEO,

スティーブ・ジョブズ氏は次期iPadやiPhoneの開発

に関与していると明かしました

人物名

製品名会社名

メモリ効率を保持しながら従来より最大300倍の高速化を実現

縮退ラティスによる探索空間の削減法を提案

自然言語処理における最高峰の国際会議ACL2010に採択Kaji

et al. Efficient Staggered Decoding for Sequence Labeling

多メディアWeb分析・可視化技術 (組合せ素性に基づく分類器の学習)

話題分析に用いる言語処理技術の高精度化には多数の素性の組合せを考慮し大量の訓練例を用いた学習が必要

組合せ素性を用いた大規模学習のための逐次学習法を提案低頻度素性に関する組合せを多項式カーネルで効率的に計算学習の時空間効率を制御

素性の組合せを頻度を考慮して再分割し部分計算結果を再利用学習の規模耐性を向上

はやぶさが 帰還したと 喜ぶ

基本素性:品詞(細分類),活用,距離組合せ素性:品詞×活用,品詞×品詞細分類,

品詞細分類×活用,品詞×距離・・・

従来手法(カーネル)

提案手法

空間効率を保ち学習を最大250倍高速化

例)

係り受け解析?

トップ会議

COLING

2010 に採択,第72回情報処理学会全国大会

大会優秀賞

Yoshinaga

et al. Scalable Online Training with Conjunctive Features 14

多メディアWeb分析・可視化技術 (CGM画像の組織化)

CGM上の話題の推移を把握可能にするため画像を詳細な話題に分類し、ラベル付与・ランキングを行う

報道に使用された画像の調査

イベントや集会の様子の視覚的な把握

尖閣動画のような話題性の高い画像の発見

商品画像の出現頻度や変遷をマーケティングに利用

分類画像と放送映像の照合により 放送・Web間の話題伝搬追跡を可能とする 15

検索語 Blog Archive

100万ブログ4.5億記事

クラスタリングラベル付与ランキング

研究開発成果

(1)

多メディアWeb解析要素技術に関する研究

達成目標: 先進的な技術、社会分析に耐えうる高精度、Webスケールに耐えるスケーラビリティ(1-1)

画像・映像キーワード抽出技術に関する研究

(1-2)

画像・映像リンケージ技術に関する研究

(1-3)

多次元解析高速化技術に関する研究

(1-4)

多メディアWeb分析・可視化技術に関する研究

(2)

多メディアWeb基盤技術に関する研究

達成目標: 類を見ない巨大なアーカイブ、スケーラブルな処理を支える処理基盤(2-1)

多メディアWeb収集・蓄積技術に関する研究

(2-2)

データインテンシブスケジューリング技術に関する研究

(3)

多メディアWeb統合処理に関する研究

達成目標: 解析要素技術と基盤技術を統合利用するプラットフォームの実現

(4)

多メディアWeb解析の実証評価に関する研究

達成目標: 様々な分野で利用できる社会分析ソフトウェアの実現

16

0.0

0.5

1.0

1.5

2.0

2.5

UR

L当

たり

I/O

コス

ト [

ms]

10億規模のURL毎の更新頻度に応じた細粒度可変周期収集・蓄積技術(1分~1年周期)

12年間にわたり190億URL(2011年6月)規模の日本語ウェブページ・画像を集積し、継続期間および規模においてアジア圏最大級のウェブアーカイブを構築

17

多メディアWeb収集・蓄積技術

蓄積コンテンツ数[億]

従来型DB:

ランダムアク

セスによりボト

ルネックに

独自構造により

100倍高速化

管理情報更新コンテンツ

格納

可変周期収集を実現するデータ管理技術

0 20 40 60 80

100 120 140 160 180 200

99 00 01 02 03 04 05 06 07 08 09 10 11 12

Year 17

テレビ放送、Twitterなど、複数の高速データストリーム

リアルタイム処理の必要性

動的負荷分散基盤の設計とプロトタイプ実装・評価ストリームマイニング手法+クラウドによるパイプライン処理

1ノード/msec(=1億ツイート/day)を31ノードで全て解析8ツイート/node単位で割り振り

シリアル実行では60ツイート/node単位の割り振りでも8割以上をロス

データインテンシブスケジューリング

18

ストリームマイニング手法

ストリームマイニング手法のパイプライン化

8ツイート以上/nodeでロスゼ

シリアル実行

は90%以上を

未処理で破棄

研究開発成果

(1)

多メディアWeb解析要素技術に関する研究

達成目標: 先進的な技術、社会分析に耐えうる高精度、Webスケールに耐えるスケーラビリティ(1-1)

画像・映像キーワード抽出技術に関する研究

(1-2)

画像・映像リンケージ技術に関する研究

(1-3)

多次元解析高速化技術に関する研究

(1-4)

多メディアWeb分析・可視化技術に関する研究

(2)

多メディアWeb基盤技術に関する研究

達成目標: 類を見ない巨大なアーカイブ、スケーラブルな処理を支える処理基盤(2-1)

多メディアWeb収集・蓄積技術に関する研究

(2-2)

データインテンシブスケジューリング技術に関する研究

(3)

多メディアWeb統合処理に関する研究

達成目標: 解析要素技術と基盤技術を統合利用するプラットフォームの実現

(4)

多メディアWeb解析の実証評価に関する研究

達成目標: 様々な分野で利用できる社会分析ソフトウェアの実現

19

多メディア話題追跡システム

Webグラフ及び係り受け関係の時系列変化を可視化し、インフルエンサー、人々の行動・興味の推移を追跡探索

メディア間、話題間の比較分析が可能

メ デ ィ ア に よ る イ ン フ ル エ ン サ ー 、書き込み内容の差

商品間、人物間の差

キャリア

キャリアA

キャリアB

キャリアB

新商品A

新商品A’

新商品A

TimeSlicesキーワードに関連するイベント群のツリー表示

ノードを指定して絞り込

み探索

時系列

出現頻度の可視化

TimeFluxes

Timeline

係り受け解析を用いた話題追跡システム

時系列リンク構造可視化による

ブログ上のインフルエンサー追跡

国際会議IV2010採択、

第72回情報処理学会全国大会

大会優秀賞

Itoh

et al. An Interactive Visualization Framework for Time-Series of Web Graphs in a 3D Environment

独創性・優位性

Webアーカイブ構築180億URL、時系列収集、アジア域最大

放送映像アーカイブ構築多チャンネル、1年以上、10万時間以上、国内外に例なし

大容量・高スループット解析基盤クラウド環境にて1日当たり1億ツイートをリアルタイム解析可能

高速/高精度画像・映像解析技術TRECVID(2009コピー検出高精度・世界最高速2010物体検索精度世界1位)最高峰国際会議採択(ICCV)CM検出・同定高精度・世界最高速

高速自然言語処理技術系列ラベリング、組み合わせ素性の学習最高峰国際会議採択(ACL/COLING)情報処理学会大会優秀賞

高速Web構造解析技術Webグラフ圧縮、圧縮率で世界最高高速最近傍探索、高次元類似検索で世界最高速

21

今後の研究開発計画

多メディアWeb解析要素技術、多メディアWeb基盤技術ともに今後も拡張予定

多メディアWeb統合処理によりプラットフォーム構築

様々な分野における多様な社会分析ニーズをくみ上げ多種多様な社会分析ソフトウェアを構築していく

現在想定している例Web・放送映像を用いた社会分析

Twitterによるリアルタイム番組視聴「質」解析

コマーシャル映像のマーケティング戦略とblog/twitterによる影響解析

22

画像・映像

キーワード抽出

画像・映像

リンケージ

多次元解析

高速化

多メディア

Web

分析・可視化

多メディアWeb解析要素技術

多メディア

Web

収集・蓄積

データインテンシブ

スケジューリング

多メディアWeb基盤技術

Webアーカイブ/放送映像アーカイブ

多メディアWeb統合処理W

eb・

放送映像を

用いた

社会分析

Tw

itte

rによるリ

アルタイム番組

視聴「質」解析

コマーシャル映

像のマーケティ

ング戦略解析

多メディアWeb解析の実証評価

多様な社会分析ニーズ

話題の発展・見解の多様性を多メディア間のギャップから分析話題の起点抽出

「ワーキングプア」、「無縁社会」等社会問題の起点となる番組,番組以前の状況を分析

多メディア間の情報伝搬パタンボランティア、義援活動、地域活性化等の草の根活動が放送により発展する過程

メディア間の反応差放送に対するWeb上での意見の多様性、肯定・否定分布等

Webアーカイブ 放送映像アーカイブ

Web・放送映像を用いた社会分析

23

Web上の話題画像分析放送映像の

キャプチャ

Web画像と

放送映像の照合

照合フレームと頻度時系列字幕情報

頻度時系列・字幕を

Web情報と照合

ブログ・Twitter等のテキスト・リンク構造分析

メディア間の反応差伝搬分析

Twitterによる リアルタイム番組視聴「質」解析

24

クラウド環境での

複数データストリーム解析

クラウド環境での

複数データストリーム解析

形態素解析と名詞抽出

特徴的な名詞の抽出

タイムラインの監視

特徴的名詞を含むツイートの

抽出とユーザの特定

形態素解析と名詞抽出

集中モニタリング(N本)

各番組視聴中ユーザの反応を抽出各番組視聴中ユーザの反応を抽出

… …放送中番組の視聴者として

集中的にモニタリング

首都圏キー局(7本)

>>夏の全国高校野球はきょう、

新たに代表校4校が決まりました

番組

番組

番組

番組

Webアーカイブ

評判解析

評判解析

コマーシャル映像のマーケティング 戦略とblog/twitterによる影響解析

25

放送映像アーカイブ関連web情報

商品名・会社名

推定

blog

twitter

放送回数/時間帯等の時間変化と

評判への影響解析

blog/twitter上の記述に

基づく評判解析

コマーシャル映像解析によるマーケティング戦略の推定

blog/twitter解析によるマーケティング効果測定

関連商品との比較、より効果的なマーケティング戦略の推薦等

関連商品との広告戦略の比較

研究開発体制

26

(1)多メディアWeb解析要素技術に関する研究

学校法人早稲田大学・山名 早人 (46歳)

国立情報学研究所・佐藤 真一 (46歳)

(2)多メディアWeb基盤技術に関する研究

国立大学法人東京大学生産技術研究所・喜連川 優 (55歳)

国立大学法人東京大学生産技術研究所・喜連川 優 (55歳)

三菱電機株式会社情報技術総合研究所・茂木 強 (53歳)

学校法人早稲田大学・山名 早人 (46歳)・村岡 洋一 (68歳)

(3)多メディア統合処理に関する研究

学校法人早稲田大学・山名 早人 (46歳)

国立情報学研究所・佐藤 真一 (46歳)

国立大学法人東京大学生産技術研究所・喜連川 優 (55歳)

要素技術・基盤技術の統合

(4)多メディアWeb解析の実証評価に関する研究

国立情報学研究所・佐藤 真一 (46歳)

学校法人早稲田大学・山名 早人 (46歳)・村岡 洋一 (68歳)

国立大学法人東京大学生産技術研究所・豊田 正史 (39歳)・喜連川 優 (55歳)

三菱電機株式会社情報技術総合研究所・茂木 強 (53歳)

実証

アクセラテクノロジ株式会社・萩原純一 (42歳)

アクセラテクノロジ株式会社・萩原純一 (42歳)

Webアーカイブ構築活用助言委員会

・長尾真 (国立国会図書館・館長)・牧野二郎 (牧野総合法律事務所・弁護士)・小島啓二

(株式会社日立製作所中央研究所・所長)・有川節夫 (九州大学・総長)・Calton Pu (ジョージア工科大学・教授)・Nozha Boujemaa

(INRIA Sacley・Director)

要望・助言等

収集・蓄積技術の実装に関する協力

解析用コンテンツ提供における協力

アプリケーション選定、実証実験の実施に関する協力

アプリケーション選定、実証実験の実施に関する協力

成果の利活用

本研究開発で開発したソフトウェアモジュールはオープンソースとしての提供を検討する。

画像・映像意味分類システム

組み合わせ素性を用いた分類器

高速系列ラベリングアルゴリズム

データインテンシブスケジューリング

実証実験等を協力企業等と連携して実施することを通し、新しい社会分析が可能であること示し、企業との連携による研究開発成果の実用化を促す。

本研究開発で構築したWebアーカイブについては、様々な学術利用を可能とするために適切な検索・データ取得インタフェースを提供し、研究者向けに公開することを検討している。ただし、著作権法等法的に問題ない範囲での公開を検討していく。

これらの実用化・普及に向けて、Webアーカイブ構築活用助言委員会を設置し、成果を用いた学術調査への利用や実サービス実施に対する要請、法制度的問題点等に関する議論を行いつつ研究開発の方針を定めていく予定。

27

人材育成

ポスドクや大学院生らを、Webアーカイブや放送映像アーカイブなど世界でも類を見ない規模の研究資源や世界的競争力を有するツールを活用した先駆的・独創的な研究開発に従事

これにより、基礎技術に偏らない、実践的な人材の育成を目指す

国立情報学研究所:ポスドク4名、大学院学生4名

東京大学:ポスドク3名

早稲田大学:ポスドク1名、大学院学生6名

28