ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4...

4
Vol.71 No.1 2014.1 4 特集 輸送計画 近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティ ング,需要予測,新たなビジネスの創出などに成果をあげています。鉄道の輸送計 画や運営・保守においても,大量データの収集分析と利用が考えられ,業務運営の 改善や利便性向上などにつながることが期待されます。本稿では,鉄道におけるビッ グデータ利用や,大量データを対象とした研究の展望を述べたいと思います。 ビッグデータの時代と 鉄道輸送 田中 幹夫 Mikio Tanaka 信号・情報技術研究部 主管研究員 [ 専 門 分 野 ]情 報 工 学, 電気工学 ☞ ペタバイト データの大きさを示す単位。1 バイトは 1 文字分に相当します。ペタバイトは 10 15 バイト。なお,1 ペタ= 10 3 テラ= 10 6 ギガ= 10 9 メガ= 10 12 キロ。 ☞ データ科学の時代 近年,「パラダイムシフト:第4のパラダイムへ」 3) という事が提唱されています。 これは科学の流れを,①経験科学:観察・観測で得た情報を基に経験的処理,②理 論科学:経験を分析し背後の論理・法則を探求,③計算科学:解析解が得られぬ対 象をコンピューター能力で数値シミュレーション的に解く,④データ科学:膨大な データ,遍在・強力な計算能力の存在を前提にした科学研究,と捉え,今後は,④ の時代に入っていく,というものです。 が期待されています。公的にも米国オ バマ大統領の施政方針演説 1) でビッグ データの重要性が言及され,関連研究 への大規模予算措置が発表されました。 これでさらにブームに拍車がかかった ようです。 「ビッグデータ」とは文字通り巨大情 報の意味で明確な定義はありませんが, 従来手法(データベース,処理アルゴリ ズム)やハードウェア(記憶装置)の能力 では処理が難しい,数 10 ペタバイト(☞ 参照)以上を指す場合が多いようです。 現在の相当な大規模システムでも,扱 うデータの上限は数100テラ程度と言 われ,それを超えた領域を扱う,いわ ばビッグデータ独特の手法の研究開発 も進んでいます。サイズ的に大きいだ はじめに インターネットを使っている方・・・ 『この商品を検索した人は,こんな商 品も見ています』『この商品を買った 人は,こんな商品も買っています』と いったメッセージを目にしませんか? 20 XX 年,鉄道会社の輸送指令室・・・ 『こう動いた旅客は,次にこんな行動 に移ります』『M分後にN駅ホームの 旅客数はP人に達し注意が必要です』 といったメッセージが指令員に提供さ れているかも知れません。 「ビッグデータ」という言葉を良く耳 にするようになりました。従来の方法 では取り扱いが困難な巨大規模のデー タを指しており,その分析活用により 現行業務の改善や新ビジネスの創出 構造物 電力 軌道 人間科学 浮上式鉄道 材料 車両 環境 防災

Transcript of ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4...

Page 1: ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4 Vol.71 No.1 2014.1 特集 輸送計画 近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティ

Vol.71 No.1 2014.1 4

特集 輸送計画

近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティング,需要予測,新たなビジネスの創出などに成果をあげています。鉄道の輸送計画や運営・保守においても,大量データの収集分析と利用が考えられ,業務運営の改善や利便性向上などにつながることが期待されます。本稿では,鉄道におけるビッグデータ利用や,大量データを対象とした研究の展望を述べたいと思います。

ビッグデータの時代と鉄道輸送

田中 幹夫Mikio Tanaka

信号・情報技術研究部主管研究員

[専門分野]情報工学,電気工学

☞ ペタバイトデータの大きさを示す単位。1 バイトは 1 文字分に相当します。ペタバイトは1015バイト。なお,1 ペタ= 103テラ= 106ギガ= 109メガ= 1012キロ。

☞ データ科学の時代近年,「パラダイムシフト:第 4 のパラダイムへ」3)という事が提唱されています。これは科学の流れを,①経験科学:観察・観測で得た情報を基に経験的処理,②理論科学:経験を分析し背後の論理・法則を探求,③計算科学:解析解が得られぬ対象をコンピューター能力で数値シミュレーション的に解く,④データ科学:膨大なデータ,遍在・強力な計算能力の存在を前提にした科学研究,と捉え,今後は,④の時代に入っていく,というものです。

が期待されています。公的にも米国オ

バマ大統領の施政方針演説1)でビッグ

データの重要性が言及され,関連研究

への大規模予算措置が発表されました。

これでさらにブームに拍車がかかった

ようです。

 「ビッグデータ」とは文字通り巨大情

報の意味で明確な定義はありませんが,

従来手法(データベース,処理アルゴリ

ズム)やハードウェア(記憶装置)の能力

では処理が難しい,数10ペタバイト(☞

参照)以上を指す場合が多いようです。

現在の相当な大規模システムでも,扱

うデータの上限は数100テラ程度と言

われ,それを超えた領域を扱う,いわ

ばビッグデータ独特の手法の研究開発

も進んでいます。サイズ的に大きいだ

はじめに インターネットを使っている方・・・

『この商品を検索した人は,こんな商

品も見ています』『この商品を買った

人は,こんな商品も買っています』と

いったメッセージを目にしませんか?

 20XX年,鉄道会社の輸送指令室・・・

『こう動いた旅客は,次にこんな行動

に移ります』『M分後にN駅ホームの

旅客数はP人に達し注意が必要です』

といったメッセージが指令員に提供さ

れているかも知れません。

 「ビッグデータ」という言葉を良く耳

にするようになりました。従来の方法

では取り扱いが困難な巨大規模のデー

タを指しており,その分析活用により

現行業務の改善や新ビジネスの創出

構造物

電力

軌道

人間科学

浮上式鉄道

材料

車両

環境

防災

Page 2: ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4 Vol.71 No.1 2014.1 特集 輸送計画 近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティ

Vol.71 No.1 2014.1 5

図4 駅の主成分分析(自動改札データ使用)

図3 列車の予約累積数

図2 都市間の旅客数

図1 駅の入/出場者数

けでなく,巨大データを世界中に分散

配置し,並行的に処理や検索を行う高

度な機能2)も開発されています。大量

データの高速処理が可能なスーパーコ

ンピューターの寄与も大でしょう。

 ビッグデータという言葉自体はIT

分野でよくあるブームの1つという見

方もできますが,情報化によって生ま

れた資産である巨大データの分析活用

という流れは確固たるもので,今後の

「データ科学の時代」3)(☞参照)を反映

したものと言えます。なお本稿では,

データサイズに拘らず広く大量データ

の分析・活用の展望を述べます。

鉄道の特質と今後求められるもの 鉄道は19世紀の産業革命期,絶対

量定型輸送の長所の維持に加え,個別

多様ニーズにも対応して利便性を高め,

かつ輸送効率性を保つ柔軟な鉄道への

転換が必要でしょう。また,例えば輸

送量80%に対してコスト80%,さらに

それ以下にできる運営が求められます。

 「個別ニーズ」への対応を犠牲に「大

量定型輸送」に徹して長所を発揮して

きた鉄道にとって,これは実に難題で

すが,これに応えるため,情報技術,

ビッグデータの活用は,1つの手掛り

となるのではないでしょうか。

情報技術・ビッグデータ利用の試み

 今まで「デマンド輸送方式」(利用者

ニーズに応じた動的柔軟な輸送計画),

「曖昧予約方式」(柔軟な予約による,

列車への動的旅客配分)などの研究や

シミュレーションは試みられてきまし

た。しかし課題は大きく実現には至っ

ていません。個別ニーズ対応と輸送効

率性の両立のためには,個々の移動ニー

ズを正確精緻に捉え,予測し,それを

うまく集約して大量定型輸送に近づけ

る,といったアプローチが必要です。

どんな技術,手法が必要でしょうか?

①利用者動向に係るデータ収集

 今まで大都市交通センサス調査や乗

務員によるノリホ作成(乗客数把握)

などが行われてきましたが,正確性,

規模,頻度が不十分です。今後求めら

れるのは精緻で大規模なものです。自

動改札・券売機データ,車両重量(重

量から乗客数推定),駅での画像処理,

利用者携帯端末の位置情報などの利用

が考えられます。データ例を図示しま

す。図1は大都市ターミナル駅の1日

の時間別入/出場者数,図2は1ヶ月

間の2都市間発着(OD)旅客数,図3

は長距離列車に対する予約の1ヶ月前

からの累積数,図4は利用者情報(券種)

からの駅特性分類(主成分分析)です。

今までこれらデータに基づく旅客流動

の研究は行われてきましたが,まだま

だデータの精密さや収集体制が不十分

で,個々の旅客特性と比較対照した精

緻な分析やモデル作成は不可能でした。

目標である「旅客ニーズ予測」には程

遠い状況と言えます。今後,データ収

集と解析が広がるビッグデータ時代に

は,格段に正確で分解能が高いデータ

を用いて,より適切で正確なモデルの

仮定,現実に近い予測が期待されます。

②利用者ニーズのモデル化

 利用者動向の予測にはミクロ経済学

の効用理論に基づく行動選択モデルが

一般に使われます。これは主体(購入

者,利用者)が客体(購入商品,交通

機関)を選択する際,主体,客体,状

量が不足していた輸送力の

提供という役割から大発展

しました。大量定型輸送に

適し,個別輸送と比較して

格段に高い輸送力と効率が

利点です。

 日本の人口は減少期に入

り,30年後は最盛期の80%

と予想され,輸送量増加は

見込めません。都市圏の利

用者の多くは通勤通学客で,

その減少割合はさらに大き

くなるでしょう。今後は大

旅客数

入場者出場者

0 2 4 6 8 10 12 14 16 18 20 22時間帯

旅客数

月日

401

402

403

404

405

406

407

408

409

410

411

412

413

414

415

416

417

418

419

420

421

422

423

424

425

426

427

428

429

430

予約累積数

運行日までの日数292827323130 2625242322212019181716151413121110 9 8 7 6 5 4 3 2 1 0

5.0

5.0

2.0

2.0

1.01.0

1.00.00.00.00.0

-1.0-1.0

-1.0-1.0

-2.0

-2.0-3.0

3.0

3.0

4.0

4.0

駅39

通学型

駅65駅60

駅67駅45

駅41駅40

第2主成分

第1主成分土休日型平日型

Page 3: ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4 Vol.71 No.1 2014.1 特集 輸送計画 近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティ

Vol.71 No.1 2014.1 6

況,環境などに係る各種属性値から算

出される効用値(主体からみた価値の

高さ)によって各選択肢の確率分布が

得られるというものです。例えば利用

者が,どの交通機関・列車を選ぶかは

主体属性(年齢など),客体属性(料金,

時間など),環境属性(移動目的,天

候など)などで各選択肢の効用値,選

択確率が計算されます。これにより旅

客行動予測が可能になるわけです。し

かし上記パラメータの組み合せは膨大

で,必要な信頼性でのパラメータ同定

は至難です。パラメータの組み合せに

よっては欠測が生じる場合も多々あり

ます。相当量のビッグデータが得られ

た場合,各種属性の組み合せに対する

実効的なデータサイズが得られ,各属

性値を行動モデル式に入れて個々の行

動予測を積み上げることで精緻な予測

につながることが期待されます。

 ちなみにデータ量はどの程度になる

でしょう?凡その概算ですが,属性20

種類,各特性3択,必要ケース数400

としますと,標本サイズは320×400≒

1テラとなります。データの大きさと

しては数100テラバイト,さらに時系

列で特性変化を追うためにはペタバイ

ト領域となるでしょう。まさにビッグ

データ特有の規模となっていきます。

 そこで,冒頭例のようなものも想像

される訳です。オンラインショッピング

などで普及していますが,これは,購

買・利用者の検索や実行動に係る大量

データを蓄積・分析し,そこから予想動

作の確率分布を見出すもので「協調フィ

ルタリング」などの手法が使われます。

③動的な輸送計画と最適化

 実務面からみると,動的な輸送計

画作成というのは複雑で難易度が高

く,バスのような「今日は客が多いか

ら1台増やす」といった技は鉄道では

至難です。線路容量,駅設備,車両運

用,乗務員運用等々の複雑な要素を全

て勘案して作成するのが輸送計画や

列車ダイヤであり,人手による動的計

画作成は現実的ではありません。オペ

レーションズリサーチの技術が基礎と

なり,前記のような輸送上の各種制約

下で,ある目標値(利便性や提供コス

トなど)を最大かつ最適にする手法が

必要とされます。

④暗黙的パターン予約

 受動的データ把握だけでは利用者動

向の予測は困難と考えられます。そ

れでは,どんな方法が考えられるで

しょう?一案として全利用者に「(利

用内容を事前に)予約して頂く」方法

も考えられます。多くの鉄道利用者の

動きは「定型」「往復」パターンに沿っ

たものです。そのパターンを提供側は

ビッグデータを通した受動的把握に加

え,利用者から積極的に明示してもら

う,ということです。この予約は利用

者行動を拘束しない「緩い」「パター

ン的」予約ですが,この情報も加える

ことで予測精度は高まると考えられま

す。しかし,「予約」は煩わしいでしょ

う。予約パターンから外れない利用を

した場合は料金面でインセンティブを

与える方法も考えられます。現状の定

期券も利用パターンを予約(登録)し

ていると解釈でき,定期割引運賃はイ

ンセンティブと言えるでしょう。

 「全利用者が予約」とは突拍子ない考

えと思われるかも知れませんが,飛行

機利用者は事前にその個人名・全行程

を提供する訳です。その予約情報で航

空会社は必要により便や使用機材を変

更し輸送効率を上げることが可能です。

また利用サービス面では予約情報が有

るゆえに,乗継客のために接続便出発

を少々遅らして待たせる,といった対

応も可能な訳です。この考え方を鉄道

にも緩い形で適用できないか,という

ことになります。極端な例を挙げれば,

本来停車する駅でも降車/乗車客がい

なければ,駅通過が可能なわけです(実

際,バスでは行われていますね)。

図6 ある保安装置特性値の時系列変化の現実値と予測(重回帰)値

図5 静的輸送計画と動的輸送計画(イメージ)

輸送ニーズのデータ収集

(ビッグデータ)

動的輸送計画・最適化

輸送ニーズのモデル化・予測

現在:静的輸送計画(固定ダイヤ)

将来:動的輸送計画(動的ダイヤ)

時刻表

静的な輸送計画

輸送スケジュール周知

輸送スケジュール周知

日付

設備特性値

重相関係数=0.94

20

15

10

-4.0

-4.5

-5.0

-6.0

0309

0313

0317

0321

0325

0329

0402

0406

0410

0415

0420

0424

0429

0503

0509

0513

0517

0521

0525

0529

0602

0606

0617

0621

0625

0701

0713

0717

0722

0726

0730

0803

0808

0813

0818

0824

-5.5 5

0

現実値

合致度(誤差%、右軸)予測値(重回帰)

Page 4: ビッグデータの時代と 鉄道輸送bunken.rtri.or.jp/PDF/cdroms1/0004/2014/0004005976.pdf4 Vol.71 No.1 2014.1 特集 輸送計画 近年は「ビッグデータ」と言われる巨大なデータの収集・活用が始まり,マーケティ

Vol.71 No.1 2014.1 7

文 献1)WhiteHouse:BigData is a BigDeal, http://www.whitehouse.gov/blog/ 2012/03/29/big-data-big-deal2)Hadoop.apache.org:Hadoop

Releases,http://hadoop.apache.org/releases.html

3)Microsoft Research:The Fourth Paradigm:Data-Intensive Scien-tific Discovery,http://research.microsoft.com/en-us/collabora-tion/fourthparadigm/

4)E.J.Gumbel:Statistics of Ex-tremes,1963

5)G.Orwell:1984,19496)E.S.Fromm:Escape From Free-

dom,1941

⑤動的スケジュールの周知

 現行では提供側がスケジュール(ダ

イヤ)を「時刻表」という形で公開しま

す。動的計画となれば時刻表がダイナ

ミックに変化する訳で,それを利用者

が簡便に得られる必要があります。携

帯電話,スマートフォンなどの普及で

メディア的基盤は確立しつつあると言

えるでしょう。

 以上のイメージを図5に示します。

異常時の対応 近年の大災害時に課題になったのが

輸送機関の異常時対応です。ビッグ

データを通して利用者移動をリアルタ

イムで大量に収集・追跡できれば,任

意の時点・箇所の旅客数,移動ニーズ

発生量が予想できます。すなわち,災

害などでの輸送停止や停滞時に,どん

な事象が発生するか予測可能で,帰宅

難民への対応,運転回復・再開はどの

ような方法が良いか,などの判断の支

援につながります。

保守や安全のために 以上,輸送計画面でのビッグデータ利

用を述べましたが,鉄道のあらゆる分野

で活用可能でしょう。例えば設備保守面

でも基本的考えは同様です。設備履歴・

特性・環境・検査結果などのデータを

大規模に収集し,各属性別に正確精緻な

分析ができれば,個々設備の特性変化の

モデル化や変化予測の可能性がありま

す。より適切で効率的な保守時期の設定

や寿命予測,設備トラブル発生防止に役

立てることが可能でしょう。

 図6は,その試みの一例で,ある保

安設備の健全度変化の現実値と,環境

や他設備データによる予測(重回帰)

値とを合わせて示したものです。両者

にはかなりの合致が見られ,合致度

チェックによる設備特性変化の早期検

知手法の研究が進められています。

 安全についても同様です。安全や事

故の管理のために「ハインリッヒの法

則」があります。1:29:300という数

字を耳にした人は多いでしょう。これ

は見方を変えれば,数件のデータを見

ている限りはリスクの全体像が見えな

いが,300件集めれば,重故障の1や

軽故障の29が推測できる,とも解釈

可能です。時空間的に多くの事象を集

めて分析し,極端領域での確率分布を

求めて,安全の向上に資する可能性が

あります。

 統計解析への指摘に「過去情報を用

いる以上,実例が無ければ無力では」

というものがあります。大規模地震や

災害の予測は典型例でしょう。実例に

依存せず極端事象の確率を求める研究

も有ります4)。正規分布では確率分布

は中央が山で両裾で急減しますが,裾

の様態に注目し発生データ範囲を超え

た領域の確率予測を試みるものです。

今後こういった研究もビッグデータ活

用拡大に合わせ進展が期待されます。

おわりに 鉄道のさまざまな分野で共通データ

ベースを備え,ビッグデータ活用を図

るイメージを図7に示します。鉄道業

務は複雑かつ専門的で分野毎の縦割り

になりがちですが,大規模ビッグデー

タは全分野で共有し有効活用を図るべ

きでしょう。

 本稿で述べた内容は技術的な側面で

あり,他の多くの課題があります。個

人情報の利用はどの程度許容されるか,

プライバシー侵害をどう避けるか,と

いう問題があり,鉄道事業者がビッグ

ブラザー5)になるのか,という批判が

出るかも知れません。利便性の面では

「時刻表がニーズにより動的に変わる」

形態が歓迎されるか,という論点もあ

るでしょう。利用者が望むのは「自由」

でなく,例えば時刻表に「拘束」され

る形態なのだ,という少々心理学・哲

学的議論もあるかも知れません6)。今

後,各方面からご意見も頂戴し,将来

に向けたビッグデータ活用の研究を考

えていきたいと思っています。

図7 鉄道におけるビッグデータ利用の総合的イメージ

大量の時空間系列データ(BigData)

の分析・活用

輸送現場(駅・指令等)

営業現場(駅・販売窓口等)保守現場

インターネット

データ分析の技術統計解析数理計画・最適化モデル化・予測

個人の位置データ

自動改札データ

車両重量(バネ圧)データ

ノリホ(乗車人員報告)駅旅客数

データ災害データ

転てつ機動作データ

列車予約データ

公的データ

SNS

構造物状態データ

軌道回路着電圧データ

券売機売上データ

データ収集蓄積の技術

◆鉄道運営の改善 輸送業務の効率化 保守業務の効率化◆旅客サービスの向上◆営業活動の支援

広域大容量ネットワーク技術クラウド技術、センシング技術

データ処理の技術計算技術・スパコン活用シミュレーション技術