國立臺灣師範大學...

69
國立臺灣師範大學 資訊工程研究所碩士論文 指導教授:侯文娟 博士 利用廣義知網及維基百科於 劇本文件之廣告推薦 Using E-HowNet and Wikipedia in Advertisement Recommendation for Scripts 研究生: 陳信裕 撰 中華民國 一零五

Transcript of 國立臺灣師範大學...

Page 1: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

國立臺灣師範大學

資訊工程研究所碩士論文

指導教授侯文娟 博士

利用廣義知網及維基百科於

劇本文件之廣告推薦

Using E-HowNet and Wikipedia in

Advertisement Recommendation for Scripts

研究生 陳信裕 撰

中華民國 一零五 年 七 月

i

摘要

本論文的研究議題主要是因為觀察到目前電視劇進入廣告時段時大部分

的廣告內容很枯燥乏味又冗長而且廣告和電視劇的內容又不相關導致在此時

會有不少觀眾會選擇轉到其他電視台先觀看其他電視台的電視劇或是忙一些

手邊事情所以就造成這個時段的廣告廠商效益因此降低而且廣告播映都需使

用人力排程費時又費力因此本論文希望建立一個自動化劇本分析與廣告推薦

系統先從劇本內容分析與探勘重要的特徵詞作為模型中有效且具高準確率的

特徵讓所推薦的廣告在播出時能夠吸引觀眾的目光使廣告商品可以得到最大

效益

本論文實驗資料來源分別由兩種取得第一種來源是從金穗獎劇本網站中找

出 12 個劇本做為劇本文件資料第二種來源是從維基百科中搜尋廣告商品取得

廣告商品簡介做為廣告商品資料庫經由本論文所提方法實驗之後最後會以自

動化的方式互相比對用來驗證本實驗各項結果是否成功實驗結果評估對象包

含劇本重點度為 4 及 5 分的段落與最佳廣告之推薦

研究方法以兩項目標為導向包含(1)自動化計算各段落重點度與(2)推薦最

佳廣告為了計算各段落重點度使用先前研究方法自動化找出劇本中幫助分析

重點度的特徵詞這些特徵詞將是分析重點度時重要的關鍵而在最佳廣告推薦

於重點度為 4 及 5 分的段落內先找出所有特徵詞 Na接著使用廣義知網找出特

ii

徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由

自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦

的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可

以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果

本研究以準確度當做評估的標準

關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科

iii

Abstract

The research topic of this paper is motivated based on the observation that when

entering the TV advertising time most of the advertising content is very tedious and

lengthy and no relevant ads for TV content It results that many viewers will choose to

turn to other channels or busy with some things at hand This situation will reduce the

benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower

scheduling which is time-consuming and laborious Therefore this paper hopes to

establish an automated script analysis and advertisement recommendation system This

study extracts the important features via mining the scripts The features are used to

build a model with characteristics of high accuracy so that the recommended advertising

can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised

goods

The experimental data of this study come from two sources the first one of 12

plays is from the Golden Harvest Awards script site scriptthe second one is from the

Wikipedia which contains the introduction of the searched advertised goods For

evaluating the proposed method an automated way is used The evaluation target is

focused on the script which contains a paragraph degree 4 or 5 stars Finally the best

advertising is recommended

iv

The study has two main goals (1) automated computing the emphasis degrees of

paragraphs and (2) recommending the best advertising In order to calculate the

emphasis degrees of paragraphs this study utilizes the previous related method to

automatically identify the focus of the script by analyzing the feature words The feature

words play an important role on the analysis of the emplasis degrees of paragraphsalso

called the focus of the scripts For the best ad recommendation this study first finds out

all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then

E-HowNet is used to extend the contents of feature words by retrieving the parents and

grandparents words called the extension words Finally the collection of feature words

and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in

order to recommend the suitable advertising for these paragraphs The recommended

ads are provided to the advertisers for their references The detailed steps and methods

will be described in the paper The experimental results are evaluated by the accuracy

metric

Keywords text mining script analysis advertisement recommendation feature words

E-HowNet Wikipedia

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 2: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

i

摘要

本論文的研究議題主要是因為觀察到目前電視劇進入廣告時段時大部分

的廣告內容很枯燥乏味又冗長而且廣告和電視劇的內容又不相關導致在此時

會有不少觀眾會選擇轉到其他電視台先觀看其他電視台的電視劇或是忙一些

手邊事情所以就造成這個時段的廣告廠商效益因此降低而且廣告播映都需使

用人力排程費時又費力因此本論文希望建立一個自動化劇本分析與廣告推薦

系統先從劇本內容分析與探勘重要的特徵詞作為模型中有效且具高準確率的

特徵讓所推薦的廣告在播出時能夠吸引觀眾的目光使廣告商品可以得到最大

效益

本論文實驗資料來源分別由兩種取得第一種來源是從金穗獎劇本網站中找

出 12 個劇本做為劇本文件資料第二種來源是從維基百科中搜尋廣告商品取得

廣告商品簡介做為廣告商品資料庫經由本論文所提方法實驗之後最後會以自

動化的方式互相比對用來驗證本實驗各項結果是否成功實驗結果評估對象包

含劇本重點度為 4 及 5 分的段落與最佳廣告之推薦

研究方法以兩項目標為導向包含(1)自動化計算各段落重點度與(2)推薦最

佳廣告為了計算各段落重點度使用先前研究方法自動化找出劇本中幫助分析

重點度的特徵詞這些特徵詞將是分析重點度時重要的關鍵而在最佳廣告推薦

於重點度為 4 及 5 分的段落內先找出所有特徵詞 Na接著使用廣義知網找出特

ii

徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由

自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦

的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可

以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果

本研究以準確度當做評估的標準

關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科

iii

Abstract

The research topic of this paper is motivated based on the observation that when

entering the TV advertising time most of the advertising content is very tedious and

lengthy and no relevant ads for TV content It results that many viewers will choose to

turn to other channels or busy with some things at hand This situation will reduce the

benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower

scheduling which is time-consuming and laborious Therefore this paper hopes to

establish an automated script analysis and advertisement recommendation system This

study extracts the important features via mining the scripts The features are used to

build a model with characteristics of high accuracy so that the recommended advertising

can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised

goods

The experimental data of this study come from two sources the first one of 12

plays is from the Golden Harvest Awards script site scriptthe second one is from the

Wikipedia which contains the introduction of the searched advertised goods For

evaluating the proposed method an automated way is used The evaluation target is

focused on the script which contains a paragraph degree 4 or 5 stars Finally the best

advertising is recommended

iv

The study has two main goals (1) automated computing the emphasis degrees of

paragraphs and (2) recommending the best advertising In order to calculate the

emphasis degrees of paragraphs this study utilizes the previous related method to

automatically identify the focus of the script by analyzing the feature words The feature

words play an important role on the analysis of the emplasis degrees of paragraphsalso

called the focus of the scripts For the best ad recommendation this study first finds out

all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then

E-HowNet is used to extend the contents of feature words by retrieving the parents and

grandparents words called the extension words Finally the collection of feature words

and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in

order to recommend the suitable advertising for these paragraphs The recommended

ads are provided to the advertisers for their references The detailed steps and methods

will be described in the paper The experimental results are evaluated by the accuracy

metric

Keywords text mining script analysis advertisement recommendation feature words

E-HowNet Wikipedia

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 3: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

ii

徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由

自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦

的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可

以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果

本研究以準確度當做評估的標準

關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科

iii

Abstract

The research topic of this paper is motivated based on the observation that when

entering the TV advertising time most of the advertising content is very tedious and

lengthy and no relevant ads for TV content It results that many viewers will choose to

turn to other channels or busy with some things at hand This situation will reduce the

benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower

scheduling which is time-consuming and laborious Therefore this paper hopes to

establish an automated script analysis and advertisement recommendation system This

study extracts the important features via mining the scripts The features are used to

build a model with characteristics of high accuracy so that the recommended advertising

can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised

goods

The experimental data of this study come from two sources the first one of 12

plays is from the Golden Harvest Awards script site scriptthe second one is from the

Wikipedia which contains the introduction of the searched advertised goods For

evaluating the proposed method an automated way is used The evaluation target is

focused on the script which contains a paragraph degree 4 or 5 stars Finally the best

advertising is recommended

iv

The study has two main goals (1) automated computing the emphasis degrees of

paragraphs and (2) recommending the best advertising In order to calculate the

emphasis degrees of paragraphs this study utilizes the previous related method to

automatically identify the focus of the script by analyzing the feature words The feature

words play an important role on the analysis of the emplasis degrees of paragraphsalso

called the focus of the scripts For the best ad recommendation this study first finds out

all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then

E-HowNet is used to extend the contents of feature words by retrieving the parents and

grandparents words called the extension words Finally the collection of feature words

and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in

order to recommend the suitable advertising for these paragraphs The recommended

ads are provided to the advertisers for their references The detailed steps and methods

will be described in the paper The experimental results are evaluated by the accuracy

metric

Keywords text mining script analysis advertisement recommendation feature words

E-HowNet Wikipedia

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 4: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

iii

Abstract

The research topic of this paper is motivated based on the observation that when

entering the TV advertising time most of the advertising content is very tedious and

lengthy and no relevant ads for TV content It results that many viewers will choose to

turn to other channels or busy with some things at hand This situation will reduce the

benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower

scheduling which is time-consuming and laborious Therefore this paper hopes to

establish an automated script analysis and advertisement recommendation system This

study extracts the important features via mining the scripts The features are used to

build a model with characteristics of high accuracy so that the recommended advertising

can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised

goods

The experimental data of this study come from two sources the first one of 12

plays is from the Golden Harvest Awards script site scriptthe second one is from the

Wikipedia which contains the introduction of the searched advertised goods For

evaluating the proposed method an automated way is used The evaluation target is

focused on the script which contains a paragraph degree 4 or 5 stars Finally the best

advertising is recommended

iv

The study has two main goals (1) automated computing the emphasis degrees of

paragraphs and (2) recommending the best advertising In order to calculate the

emphasis degrees of paragraphs this study utilizes the previous related method to

automatically identify the focus of the script by analyzing the feature words The feature

words play an important role on the analysis of the emplasis degrees of paragraphsalso

called the focus of the scripts For the best ad recommendation this study first finds out

all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then

E-HowNet is used to extend the contents of feature words by retrieving the parents and

grandparents words called the extension words Finally the collection of feature words

and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in

order to recommend the suitable advertising for these paragraphs The recommended

ads are provided to the advertisers for their references The detailed steps and methods

will be described in the paper The experimental results are evaluated by the accuracy

metric

Keywords text mining script analysis advertisement recommendation feature words

E-HowNet Wikipedia

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 5: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

iv

The study has two main goals (1) automated computing the emphasis degrees of

paragraphs and (2) recommending the best advertising In order to calculate the

emphasis degrees of paragraphs this study utilizes the previous related method to

automatically identify the focus of the script by analyzing the feature words The feature

words play an important role on the analysis of the emplasis degrees of paragraphsalso

called the focus of the scripts For the best ad recommendation this study first finds out

all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then

E-HowNet is used to extend the contents of feature words by retrieving the parents and

grandparents words called the extension words Finally the collection of feature words

and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in

order to recommend the suitable advertising for these paragraphs The recommended

ads are provided to the advertisers for their references The detailed steps and methods

will be described in the paper The experimental results are evaluated by the accuracy

metric

Keywords text mining script analysis advertisement recommendation feature words

E-HowNet Wikipedia

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 6: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

v

謹獻給hellip

家人指導教授同學朋友自己及天上的爸爸和外婆

還有所有幫助過我的人

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 7: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

vi

誌 謝

本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然

語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議

以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的

問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業

期間劃上難忘的快樂時光

最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的

感激謝謝你們

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 8: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

vii

目錄

摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi

Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii

附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix

附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi

第一章 緒論1

第一節 研究動機1

第二節 研究背景2

第三節 研究目的3

第四節 論文架構3

第二章 相關研究探討4

第一節 相關研究文獻4

第二節 廣義知網9

第三節 中文斷詞系統11

第三章 研究方法14

第一節 緒論14

第二節 研究資料14

第三節 研究方法架構21

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 9: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

viii

第四節 研究方法描述23

第四章 實驗結果35

第一節 劇本段落與廣告產品之比對結果35

第二節 實驗評量結果41

第五章 結論與未來展望54

參考文獻56

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 10: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

ix

附表目錄

表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19

表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26

表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27

表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29

表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29

表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35

表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36

表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36

表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37

表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37

表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38

表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38

表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39

表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39

表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39

表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40

表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 11: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

x

表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47

表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48

表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49

表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 12: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

xi

附圖目錄

圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6

圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42

圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44

圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45

圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50

圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 13: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

1

第一章 緒論

第一節 研究動機

本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析

進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適

的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次

在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味

又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視

台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中

大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點

上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣

告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015

年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功

能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的

劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX

手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益

本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資

訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀

眾目光使廣告商品得到較大的效益

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 14: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

2

第二節 研究背景

現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議

出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣

告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來

但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪

個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確

的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間

點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可

正確的推薦與劇情相關的廣告

本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集

12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商

品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實

驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後

五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤

這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 15: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

3

第三節 研究目的

在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章

的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的

方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文

專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在

讓觀眾可以產生共鳴的片段後播出相對應的廣告商品

近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要

一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統

只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什

麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾

可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益

本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供

參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的

方法進而延伸或是發展期許達成良好的成果

第四節 論文架構

本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相

關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法

的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介

紹來未來可能的發展方向

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 16: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

4

第二章 相關研究探討

第一節 相關研究文獻

如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就

與本論文主題相關之文獻探討可參考使用之技術並整理如下

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分

析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發

現是評論中的正向情緒確實是電影是否成功的一項重要的預測

此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混

合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論

測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解

評論的影響程度

在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下

bull在電影上映前長度為 20 個字的文本集中正向評論的數量

bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向

評論數量的方式有著非常接近的效果)

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 17: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

5

圖 1 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題

現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研

究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研

究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的

訊息以推薦正確的廣告以下為此文獻的介紹

一般來說tweets 可以被分成三類

1 新聞事件(news events)例如美國 911 爆炸案

2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等

3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets)例如「想找人和我一起聊天」

本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會

類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確

度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 18: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

6

圖 2 使用不同特徵集的實驗結果

此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較

Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個

數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優

於其他系統

圖 3 三種系統的實驗結果

在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行

本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 19: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

7

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影

劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非

NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客

條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研

究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本

文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)

及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試

用來分辨電影劇本的類別

此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗

所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分

類文字的方式用在本實驗分類特徵詞時

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的

意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探

討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡

(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進

行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測

試語意類別

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 20: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

8

1 從電影資料中擷取人物互動網路(character interaction network)並以加權

圖表示

2 計算人物互動網路中的資訊屬性(informative property)

3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型

的互動網路是否可以表示不同的戲劇與電影類別)

最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別

此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出

更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞

再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每

個段落廣告最佳播映時機點

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源

取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為

隨機取得的一些廣告群做為廣告商品資料庫

研究方法主要以兩個部分組成

1 計算各段落重點度

首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分

析重點度時的關鍵

2 推薦最佳廣告

每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞

接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後

再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 21: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

9

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動

化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析

的方法依據

第二節 廣義知網

廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生

展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫

小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在

研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構

與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複

雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣

義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)

1不會被有限詞義限制能夠更精確的表達知識

2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡

單概念進行定義

3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的

詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更

有一致性

4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊

息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決

方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集

的連結將可以限定詞義解決歧義詞的問題

5廣義知網的表示式比較容易轉換為自然語言

6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與

比較概念

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 22: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

10

運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的

幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層

延伸詞查詢結果為動物生物

廣義知網提供三種搜尋功能

1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例

如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如

ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查

詢中找到這樣就可以迅速地找到相關的延伸詞

2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢

的字串為概念延伸的定義詞彙

3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來

查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由

廣義知網中定義)

圖 4 廣義知網搜尋執行示意圖

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 23: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

11

第三節 中文斷詞系統

根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算

法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在

任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相

關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的

切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此

新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在

該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的

關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律

詞素詞彙及詞彙共現訊息為線上新詞辨識依據

本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese

Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分

詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統

此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻

率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新

詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類

歧義並猜測新詞之詞類

運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且

非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順

利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能

的最佳廣告產品

表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特

徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 24: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

12

人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用

於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的

表 1 中文斷詞系統詞性表

精簡詞類 簡化標記 對應的CKIP詞類標記

A A A 非謂形容詞

C Caa Caa 對等連接詞如

和跟

POST Cab Cab 連接詞如等等

POST Cba Cbab 連接詞如的話

C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞

ADV Da Daa 數量副詞

ADV Dfa Dfa 動詞前程度副詞

ADV Dfb Dfb 動詞後程度副詞

ASP Di Di 時態標記

ADV Dk Dk 句副詞

ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd

Dg Dh Dj

副詞

N Na Naa Nab Nac Nad Naea Naeb 普通名詞

N Nb Nba Nbc 專有名稱

N Nc Nca Ncb Ncc Nce 地方詞

N Ncd Ncda Ncdb 位置詞

N Nd Ndaa Ndab Ndc Ndd 時間詞

DET Neu Neu 數詞定詞

DET Nes Nes 特指定詞

DET Nep Nep 指代定詞

DET Neqa Neqa 數量定詞

POST Neqb Neqb 後置數量定詞

M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞

POST Ng Ng 後置詞

N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞

Nv Nv Nv1Nv2Nv3Nv4 名物化動詞

T I I 感嘆詞

P P P 介詞

T T Ta Tb Tc Td 語助詞

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 25: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

13

Vi VA VA111213VA3VA4 動作不及物動詞

Vt VAC VA2 動作使動動詞

Vi VB VB1112VB2 動作類及物動詞

Vt VC VC2 VC313233 動作及物動詞

Vt VCL VC1 動作接地方賓語動詞

Vt VD VD1 VD2 雙賓動詞

Vt VE VE11 VE12 VE2 動作句賓動詞

Vt VF VF1 VF2 動作謂賓動詞

Vt VG VG1 VG2 分類動詞

Vi VH VH111213141517VH21 狀態不及物動詞

Vt VHC VH16 VH22 狀態使動動詞

Vi VI VI123 狀態類及物動詞

Vt VJ VJ123 狀態及物動詞

Vt VK VK12 狀態句賓動詞

Vt VL VL1234 狀態謂賓動詞

Vt V_2 V_2 有

T DE 的 之 得 地

Vt SHI 是

FW FW 外文標記

COLONcATEGORY 冒號

COMMACATEGORY 逗號

DASHCATEGORY 破折號

ETCCATEGORY 刪節號

EXCLAMATIONcATEGORY 驚嘆號

PARENTHESISCATEGORY 括弧

PAUSECATEGORY 頓號

PERIODCATEGORY 句號

QUESTIONcATEGORY 問號

SEMICOLONcATEGORY 分號

SPCHANGECATEGORY 雙直線

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 26: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

14

第三章 研究方法

第一節 緒論

本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用

在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的

商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能

讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落

結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法

本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想

要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式

主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣

告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段

不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站

(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共

493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究

使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇

本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253

個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 27: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

15

者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440

個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施

君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小

鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏

德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十

二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於

作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為

例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電

視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集

60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後

續相關研究使用

圖 5 金穗獎優良劇本網站

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 28: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

16

圖 6 劇本「他們在畢業前一天爆炸」的劇本段落

廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-

tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示

「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共

175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個

字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤

酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」

共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252

個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字

「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信

佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究

方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科

簡介如圖 7 所示

11

浩爸不耐煩的過來把遙控器搶走電視關掉

兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口

浩爸開學怎麼樣

浩遠還好

隨即陷入一片深深的沉默

場9 日內景公車上

一年後

車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫

16歲)A賓(蔡嘉賓16歲)經過身旁

金王沒跟馬子一起喔

浩遠今天她媽送她hellip

兩人排隊下車浩遠卻還是座在位置上

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 29: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

17

圖 7 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分

析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本

分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸

出結果如圖 8 所示

圖 8 中文斷詞系統之輸出範例

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 30: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

18

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正

確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景

開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景

2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個

字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81

- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120

場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落

在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在

未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個

段落長度等以便後續擴大研究方向

接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC

VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞

系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使

用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這

個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法

用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經

由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA

後可以提供本研究系統進一步分析與探討

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 31: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

19

表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例

詞性 頻率 詞性解釋 特徵詞例句

NA 300 普通名詞 臉電視圍牆新聞公車

NB 154 專有名詞 某某先生爸爸耶穌

NC 219 地方詞 學校客廳高中大禮堂

操場

NCD 50 位置詞 上面裡面四周東底下

ND 22 時間詞 1 月1 點1 年清晨傍晚

VA 84 動作不及物動詞 下車狂奔苦笑

VAC 0 動作使動動詞 使hellip成為令hellip為

VB 4 動作類及物動詞 道別開玩笑拉拔

VC 95 動作及物動詞 駕駛騎乘仰望倒入

VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到

VD 8 雙賓動詞 搶偷賣

VE 20 動作句賓動詞 說想看形容聽認定

VF 7 動作謂賓動詞 企圖勸勉較準備繼續

VG 4 分類動詞 為算

VH 84 狀態不及物動詞 好出現怎麼辦愣有趣

VHC 2 狀態使動動詞 平衡空

VI 3 狀態類及物動詞 不以為然似懂非懂置信

VJ 8 狀態及物動詞 冒出剩熟悉發生維持

VK 12 狀態句賓動詞 覺得堅持明白希望詭

VL 3 狀態謂賓動詞 擅敢開始

廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內

容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到

的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣

告產品簡介收集字分析」詳述

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 32: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

20

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品

的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資

訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品

而下產品廣告

因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞

及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費

時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告

產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合

適的廣告產品

收集字分析主要方法如下

1 廣告簡介經由中文斷詞系統輸出結果

2 從輸出結果找出廣告產品前後五項的收集字

3 前後五項收集字中取出詞性為NA的詞

4 以兩種方法分析出能夠代表廣告產品的特徵詞

(1)計算每個NA詞的出現次數

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果

5 以維基百科出現次數為主找出兩組特徵詞

6 以Google搜尋結果為主找出兩組特徵詞

7 最終每個廣告產品都可以找出四組廣告產品特徵詞

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 33: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

21

第三節 研究方法架構

研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4

及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系

統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度

然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再

使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞

第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣

告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找

出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著

以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜

尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本

特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 34: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

22

圖 9 研究方法架構流程圖

金穗獎優良劇本

中文斷詞

系統

自動化分析

重點度

找出每個段落重

點度為 4 及 5 分

且詞性為 NA 的

廣義知網

NA 延伸詞

廣告產品

延伸詞與介紹

比對 NA

與廣告標籤

產生每段落可用

之廣告產品

推薦最佳

廣告產品

維基百科

廣義知網

廣告產品

找出前後五項

收集字 取出 NA 收集字

計算 NA

收集字

出現次

Google

搜尋與

廣告產

品之結

計算正規化頻率

及 TFIDF

廣告標籤選取策

中文斷詞

系統

段落重點度排序

廣告產品簡介

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 35: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

23

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計

算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所

有 NA 詞和延伸詞各步驟的詳細說明如下

(一) 找出廣告產品收集字

將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告

產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品

iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所

表 3 廣告產品 iPhone 的前後五項收集字

項目 前五項 後五項

1 蘋果 公司 期下 研發 行動

電話

2 蘋果 公司 研發 手機 作業

系統 蘋果 公司

史蒂

賈伯

斯 發布

3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下

4 蘋果 公司 旗下 智慧

型 手機 系列 個別 推出 款式 全球

5 款式 全球 銷量 智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機 伺服

器 專線 網路 視頻 標準 功能 音樂 語音 留言

7 蘋果 公司 開發

者 應用 程式 系列 機型 版本 代 先例

8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕

9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 36: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

24

10 資料 網路 能力 功能 革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理

高解

析度 鏡頭 相機 短片 特點

高解

析度 鏡頭 屏 視訊

12 視訊 鏡頭 影片 相機 鏡頭 核心 處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 屏 接頭

連接

14 核心 處理

器 屏 接頭

連接

線 擁有 生產 週期 其次 生產

15 連接

線 擁有 生產 週期 其次 生產 週期 天

響徹

雲霄 銷售

16 週期 其次 生產 週期 天 數字 智慧

型 手機 行業 程度

17 價值 公司 國家 型號 手機 美國 日本 國家

表 4 廣告產品 iPhone 的取出 NA 收集字

項目 前五項 後五項

1 蘋果 公司

行動

電話

2 蘋果 公司 手機

作業

系統 蘋果 公司

史蒂

賈伯

3 產品 產品 蘋果 公司

4 蘋果 公司

智慧

型 手機 款式 全球

5 款式 全球

智慧

型 手機

使用

者 介面 手機 螢幕 款式

6 手機

伺服

器 專線 網路 視頻 功能 音樂 語音 留言

7 蘋果 公司

開發

者 程式 機型 版本

8 程式 機型 版本 手機 按鈕 螢幕

9 螢幕 尺寸 機型 資料 網路 功能

革命

10 資料 網路 功能

革命

性 中央

處理

高解

析度 鏡頭 相機

11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 37: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

25

器 析度 析度

12 視訊 鏡頭 影片 相機 鏡頭 核心

處理

器 影片 相機 語音

13 處理

器 影片 相機 語音 助理 核心

處理

器 接頭

連接

14 核心

處理

器 接頭

連接

15

16 數字

智慧

型 手機

17 公司 國家 手機 美國 日本 國家

(二) 計算收集字作為特徵詞

由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數

以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化

頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示

其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示

(1)

(2)

(3)

公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率

加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20

因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次

數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取

策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 38: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

26

間進而計算結果

表 5 廣告產品 iPhone 的 NA 收集字出現次數

項目 出現頻率 正規化頻率(TF) IDF TFIDF

手機 8 0074766 130103 0097273

公司 7 0065421 030103 0019694

蘋果 6 0056075 130103 0072955

處理器 6 0056075 130103 0072955

鏡頭 5 0046729 100000 0046729

相機 5 0046729 100000 0046729

智慧型 3 0028037 130103 0036477

款式 3 0028037 130103 0036477

螢幕 3 0028037 130103 0036477

語音 3 0028037 130103 0036477

機型 3 0028037 130103 0036477

高解析度 3 0028037 130103 0036477

影片 3 0028037 130103 0036477

核心 3 0028037 130103 0036477

網路 3 0028037 100000 0028037

功能 3 0028037 100000 0028037

程式 2 0018692 130103 0024319

版本 2 0018692 130103 0024319

革命性 2 0018692 130103 0024319

視訊 2 0018692 130103 0024319

接頭 2 0018692 130103 0024319

連接線 2 0018692 130103 0024319

產品 2 0018692 100000 0018692

全球 2 0018692 100000 0018692

資料 2 0018692 082391 0015401

國家 2 0018692 069897 0013065

行動電話 1 0009346 130103 0012159

作業系統 1 0009346 130103 0012159

史蒂夫 1 0009346 130103 0012159

賈伯斯 1 0009346 130103 0012159

使用者 1 0009346 130103 0012159

介面 1 0009346 130103 0012159

專線 1 0009346 130103 0012159

視頻 1 0009346 130103 0012159

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 39: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

27

留言 1 0009346 130103 0012159

開發者 1 0009346 130103 0012159

按鈕 1 0009346 130103 0012159

中央 1 0009346 130103 0012159

短片 1 0009346 130103 0012159

助理 1 0009346 130103 0012159

數字 1 0009346 130103 0012159

伺服器 1 0009346 100000 0009346

音樂 1 0009346 100000 0009346

尺寸 1 0009346 100000 0009346

日本 1 0009346 069897 0006533

美國 1 0009346 060206 0005627

表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果

項目 搜尋結果 正規化頻率(TF) IDF TFIDF

日本 95000000 0216974 069897 0151658

公司 47400000 0108259 030103 0032589

資料 41100000 0093870 082391 0077340

全球 36600000 0083592 100000 0083592

國家 33300000 0076055 069897 0053160

功能 32700000 0074685 100000 0074685

中央 32400000 0074000 130103 0096276

美國 25300000 0057784 060206 0034789

網路 22200000 0050703 100000 0050703

版本 18700000 0042710 130103 0055567

手機 18100000 0041339 130103 0053783

核心 10200000 0023296 130103 0030309

產品 2100000 0004796 100000 0004796

尺寸 1910000 0004362 100000 0004362

留言 1560000 0003563 130103 0004636

使用者 1350000 0003083 130103 0004011

音樂 1210000 0002764 100000 0002764

影片 1040000 0002375 130103 0003090

程式 1020000 0002330 130103 0003031

蘋果 949000 0002167 130103 0002819

處理器 885000 0002021 130103 0002629

短片 677000 0001546 130103 0002011

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 40: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

28

螢幕 673000 0001537 130103 0002000

視頻 653000 0001491 130103 0001940

行動電話 633000 0001446 130103 0001881

款式 600000 0001370 130103 0001782

專線 592000 0001352 130103 0001759

助理 580000 0001325 130103 0001724

史蒂夫 543000 0001240 130103 0001613

伺服器 537000 0001226 100000 0001226

鏡頭 533000 0001217 100000 0001217

革命性 528000 0001206 130103 0001569

開發者 521000 0001190 130103 0001548

機型 520000 0001188 130103 0001546

接頭 514000 0001174 130103 0001527

作業系統 513000 0001172 130103 0001525

按鈕 493000 0001126 130103 0001465

數字 491000 0001121 130103 0001458

智慧型 458000 0001046 130103 0001361

介面 448000 0001023 130103 0001331

相機 413000 0000943 100000 0000943

連接線 404000 0000923 130103 0001201

高解析度 393000 0000898 130103 0001168

視訊 388000 0000886 130103 0001153

語音 361000 0000825 130103 0001073

賈伯斯 350000 0000799 130103 0001040

(三) 廣告標籤選取策略

從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百

科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA

詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主

找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一

組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現

過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 41: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

29

表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

公司 資料

蘋果 全球

表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag

WIKI 項目 Google 搜尋項目

手機 日本

蘋果 中央

處理器 全球

表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

公司 蘋果

資料 處理器

表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag

Google 搜尋項目 WIKI 項目

日本 手機

中央 蘋果

全球 處理器

依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的

四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而

推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告

讓廣告商能夠有好的效益

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 42: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

30

(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞

參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究

主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告

商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇

本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段

落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是

能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA

特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的

特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落

11-20 所示

圖 10 所有劇本重點度的分布狀況

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 43: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

31

表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞

Na 項目 階層 1 階層 2

獄警 人 人

座到 - -

犯人 人 人

樣子 外觀 外觀

電話 用具 器具

玻璃窗 萬物 物質

可樂瓶 - -

感覺 有知 感知狀態

名字 姓名 特性

人 動物 生物

複頌 - -

女朋友 女性 人

話題 內容 部件

報紙 書刊 讀物

蛋糕 食品 食物

警衛 人 人

臉 頭 身體部件

景 背景 背景

空間 萬物 物體

賓 人 人

壁報 報紙 書刊

身材 外觀 外觀

長相 外觀 外觀

男孩 人 人

肉雞 禽 獸

筆 文具 器具

蒼蠅 蟲 獸

運鈔車 車 交通工具

新聞 訊息 抽象物

簡報 語文 訊息

事 事情 萬物

一年級 - -

妹 姊妹 手足

痕跡 天然物 無生物

世 時段 時間

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 44: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

32

拳頭 手 手

同學 人 人

水 液 天然物

三年級 - -

老大 人 人

頭髮 毛 身體部件

墨鏡 用具 器具

身 身體部件 生物

制服 衣物 人工物

男生 人 人

肩膀 身 身體部件

個頭 高度 外觀

男 性別值 物體性質

門 萬物 抽象物

學長 同學 同學

敗類 人 人

語氣 風格 外觀

感情 精神 抽象物

錢 錢財 人工物

雙拳 - -

心情 精神 抽象物

禮拜 年 時段

命令 使動 使之動

個戲 - -

信用 能力 主觀描述

笑容 表情 外觀

口袋 衣物 人工物

銅板 貨幣 錢財

手 身體部件 動物

飲料 食物 人工物

馬子 女性 人

眉頭 毛 身體部件

眼神 外觀 特性

馬桶 用具 器具

隔間 房間 房屋

街道 設施 建築物

運動服 人 人

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 45: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

33

社員 領屬者 物體腳色

女 人 人

秩序 次序 數量

紅綠燈 交通號誌 符號

嘴 身體部件 動物

變燈 - -

學生 人 人

山坡 陸地 大地

羽球 運動器材 器具

活力 力量 主觀描述

健康操 - -

錄音機 機器 器具

兒歌 歌曲 歌曲

音樂 訊息 抽象物

精神 抽象物 萬物

女生 人 人

熟女 人 人

王道 方法 方法

體操 事務 事情

體育 事務 事情

老師 人 人

表現 舉止 人格特質

包包 - -

片 詞語 語言

封面 書刊 讀物

童顏 外觀 外觀

巨乳 - -

女優 - -

全校 - -

聲音 天然物 無生物

幹嘛 從事 從事

馬尾 尾 身體部件

把手 器具 用具

書包 用具 器具

夜景 背景 背景

座位 地方 地方

頭 身體部件 動物

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 46: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

34

簡訊 音訊 訊息

位置 位置相關 背景

水龍頭 器具 用具

動作 事務 事情

肩 身 身體部件

長髮 頭髮 毛

瀏海 頭髮 毛

眼睛 身體部件 動物

開架 取 變領屬

用品 器具 人工物

櫃旁 - -

包裝 用具 器具

藥盒 盒子 用具

大字 文字 語言

字 語言 信息載體

激素 化學物 人工物

避孕藥 藥物 人工物

依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義

知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠

找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 47: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

35

第四章 實驗結果

第一節 劇本段落與廣告產品之比對結果

經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸

詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與

廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31

以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇

本段落特徵詞正確比對到廣告特徵詞的數量

表 12 廣告產品「iPhone」與劇本一段落比對結果

表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 1 1 0 0

維基 TFIDF 0 0 0 0 1 1 0 0

搜尋 TF 0 0 0 0 1 1 0 0

搜尋 TFIDF 0 0 0 0 1 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 0 0 0 0

搜尋 TFIDF 1 0 0 0 0 0 0 0

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 48: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

36

表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果

表 15 廣告產品「可口可樂」與劇本一段落比對結果

表 16 廣告產品「台糖量販」與劇本一段落比對結果

表 17 廣告產品「便當」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 1 1 1 2 0 0 0

維基 TFIDF 2 1 1 1 2 0 0 0

搜尋 TF 2 1 1 1 2 0 0 0

搜尋 TFIDF 2 1 1 1 2 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 0 0 1 0 1 0

維基 TFIDF 1 0 0 0 1 0 1 0

搜尋 TF 1 0 0 0 1 0 1 0

搜尋 TFIDF 1 0 0 0 1 0 1 0

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 49: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

37

表 18 廣告產品「信義房屋」與劇本一段落比對結果

表 19 廣告產品「香雞排」與劇本一段落比對結果

表 20 廣告產品「動物」與劇本一段落比對結果

表 21 廣告產品「啤酒」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 0 0 0 0 1 1

維基 TFIDF 1 1 0 0 0 0 1 1

搜尋 TF 1 1 0 0 0 0 1 1

搜尋 TFIDF 1 1 0 0 0 0 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 1 0 0 0 0 1

維基 TFIDF 0 0 1 0 0 0 0 1

搜尋 TF 0 0 1 0 0 0 0 1

搜尋 TFIDF 0 0 1 0 0 0 0 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 2 3 3 4 2 2 2 3

維基 TFIDF 2 3 3 4 2 2 2 3

搜尋 TF 2 2 3 3 2 2 2 2

搜尋 TFIDF 2 2 3 3 2 2 2 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 2 1

維基 TFIDF 1 1 1 1 1 1 2 1

搜尋 TF 1 1 1 1 1 1 2 1

搜尋 TFIDF 0 0 0 0 0 0 1 0

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 50: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

38

表 22 廣告產品「排骨」與劇本一段落比對結果

表 23 廣告產品「速食麵」與劇本一段落比對結果

表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果

表 25 廣告產品「新光保全」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 2 1 1 1 1 0

維基 TFIDF 0 0 1 0 0 0 0 0

搜尋 TF 1 1 1 1 1 1 1 0

搜尋 TFIDF 0 0 1 1 0 0 1 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 0 1 1 1 0 2 0

維基 TFIDF 1 0 1 1 1 0 2 0

搜尋 TF 1 0 1 1 1 0 2 0

搜尋 TFIDF 1 0 1 1 1 0 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 1 1 1

維基 TFIDF 1 1 1 1 1 1 1 1

搜尋 TF 1 1 1 1 1 1 1 1

搜尋 TFIDF 1 1 1 1 1 1 1 1

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 1 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 1 0 0 0 0

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 51: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

39

表 26 廣告產品「腳踏車」與劇本一段落比對結果

表 27 廣告產品「電視」與劇本一段落比對結果

表 28 廣告產品「網路遊戲」與劇本一段落比對結果

表 29 廣告產品「遠傳電信」與劇本一段落比對結果

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 2 2 1 2 1 1 2

維基 TFIDF 0 2 1 0 2 1 0 2

搜尋 TF 1 2 2 1 2 1 1 2

搜尋 TFIDF 0 2 1 0 2 1 0 2

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 2 3 3 1

維基 TFIDF 1 0 0 0 1 2 2 0

搜尋 TF 1 1 1 1 2 3 3 1

搜尋 TFIDF 1 0 0 0 1 1 2 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 1 1 1 1 1 2 1 1

維基 TFIDF 0 0 0 0 0 1 0 0

搜尋 TF 1 1 1 1 1 2 1 1

搜尋 TFIDF 0 0 0 0 0 1 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 52: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

40

表 30 廣告產品「醫院」與劇本一段落比對結果

表 31 廣告產品「攝影」與劇本一段落比對結果

依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後

可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很

好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果

會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在

劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出

現沒有比對到的情況

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 0 0 0 0

維基 TFIDF 0 0 0 0 0 0 0 0

搜尋 TF 0 0 0 0 0 0 0 0

搜尋 TFIDF 0 0 0 0 0 0 0 0

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF 0 0 0 0 2 1 2 0

維基 TFIDF 0 0 0 0 1 1 1 0

搜尋 TF 0 0 0 0 1 1 1 0

搜尋 TFIDF 0 0 0 0 1 1 1 0

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 53: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

41

第二節 實驗評量結果

圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而

本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最

佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準

確率結果如表 44 所示

(一) 劇本與廣告特徵詞之比對結果

圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 54: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

42

圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對

圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 55: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

43

圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對

圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落1-10 段落11-20 段落21-30 段落31-40 段落41-end

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 56: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

44

圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對

圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

維基百科 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 57: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

45

圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對

觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對

成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品

而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在

維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以

分數為 4 分

(二) 最佳廣告與劇本段落內容之比對結果

最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對

問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依

自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷

的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評

量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合

若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是

三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的

0

1

2

3

4

5

6

段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80

Google 搜尋 TFIDF

iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販

便當 信義房屋 香雞排 動物 啤酒

排骨 速食麵 雄獅旅遊 新光保全 腳踏車

電視 網路遊戲 遠傳電信 醫院 攝影

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 58: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

46

準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代

表為中立

表 32 最佳廣告與劇本一段落內容比對結果

表 33 最佳廣告與劇本二段落內容比對結果

劇本二

1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90

維基 TF V V V V X V X V

維基 TFIDF - V V V X V X V

搜尋 TF V V X V - V X V

搜尋 TFIDF V V V V X V X V

表 34 最佳廣告與劇本三段落內容比對結果

劇本三

31-40 41-50 51-60 61-70 71-80 81-90 91-end

維基 TF V X V X V V V

維基 TFIDF V X V V V V X

搜尋 TF V X V X V V V

搜尋 TFIDF V X V V V V X

劇本一

11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end

維基 TF X V V X V V X V

維基 TFIDF X V V X V V X V

搜尋 TF X V V X V V X V

搜尋 TFIDF X V V X V V X V

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 59: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

47

表 35 最佳廣告與劇本四段落內容比對結果

劇本四

11-20 21-30 41-50 51-60 61-70

維基 TF X X V V V

維基 TFIDF V X V V V

搜尋 TF X X V V V

搜尋 TFIDF X X V V V

表 36 最佳廣告與劇本五段落內容比對結果

劇本五

1-10 21-30 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X V

維基 TFIDF X V X V V V V

搜尋 TF V V X V V X V

搜尋 TFIDF X V X V V V V

表 37 最佳廣告與劇本六段落內容比對結果

劇本六

1-10 21-30 31-40 61-70 71-80 81-90 101-110

維基 TF X V - X V V V

維基 TFIDF X V X V V V V

搜尋 TF X V - X V V V

搜尋 TFIDF X V X V V V V

表 38 最佳廣告與劇本七段落內容比對結果

劇本七

1-10 11-20 21-30 31-40 41-end

維基 TF V X V V X

維基 TFIDF V - V V X

搜尋 TF V X V V X

搜尋 TFIDF V - V V X

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 60: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

48

表 39 最佳廣告與劇本八段落內容比對結果

劇本八

21-30 41-50 51-60 61-70

維基 TF V - X V

維基 TFIDF V X V V

搜尋 TF V - X V

搜尋 TFIDF V X V V

表 40 最佳廣告與劇本九段落內容比對結果

劇本九

11-20 31-40 41-50 51-60 61-70 71-80

維基 TF V V X V V X

維基 TFIDF V V X V V X

搜尋 TF V V X V V X

搜尋 TFIDF V V X V X X

表 41 最佳廣告與劇本十段落內容比對結果

劇本十

1-10 31-40 41-50 51-60 61-70 71-80 91-end

維基 TF V X V V - V V

維基 TFIDF V V V V X V X

搜尋 TF V X V V - V V

搜尋 TFIDF V V V V X V X

表 42 最佳廣告與劇本十一段落內容比對結果

劇本十一

21-30 41-50 51-60

維基 TF X V V

維基 TFIDF V X V

搜尋 TF X V V

搜尋 TFIDF X V V

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 61: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

49

表 43 最佳廣告與劇本十二段落內容比對結果

劇本十二

21-30 41-50 61-70 81-end

維基 TF V X V V

維基 TFIDF V X V V

搜尋 TF V V V X

搜尋 TFIDF V V V X

觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果

在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的

比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的

結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究

可以再使用其他的方法做實驗進而提升好的結果

以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產

品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告

商品的方法

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 62: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

50

圖 19 劇本七內容與廣告產品關聯之段落

在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者

而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的

重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示

傑克森我們是從非洲的馬達加斯加島來的

賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來

賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無

所知

嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了

色真懷疑你是不是變色龍

賈霸的心情頓時感到沮喪

賈霸也許我真的不是變色龍helliphellip

嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高

冠有誰敢說你不是高冠變色龍

賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎

嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定

接不完到時候就可以開連鎖店了我要在全島各地開美容中心

賈霸非洲距離這裡有多遠啊

傑克森可遠呢坐船大概要一二個月吧

賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠

的地方嬉皮你白癡啊當然是被抓來的

賈霸被抓來的helliphellip我們是黑奴嗎

賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜

三隻變色龍眨了眨眼思考著這個問題

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 63: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

51

圖 20 劇本十內容與廣告產品關聯之段落

在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者

而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的

重點度段落中推薦的廣告產品為「電視」

饅頭的媽媽在廚房切菜

饅頭忘我的坐在電視機前

電視機畫面大力水手

小梨子的媽媽將一條魚放入鍋裡煎油煙四溢

電視機畫面大力水手

小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡

他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小

梨子一個模樣

志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯

了」說完又回到廚房

志偉完全沒有聽到媽媽的話深深被電視機畫面吸引

電視機畫面大力水手

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 64: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

52

(三) 劇本推薦廣告之準確率

本實驗推薦廣告之準確率如表 44 所示

表 44 劇本中推薦廣告產品之準確率

觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果

只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為

6561695064566749

表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要

是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-

30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最

佳廣告特徵詞所以段落 21-30 的問卷結果是不符合

而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50

劇本 維基百科

TF

維基百科

TFIDF

Google 搜尋

TF

Google 搜尋

TFIDF

劇本 1 6250 6250 6250 6250

劇本 2 7500 6250 6250 7500

劇本 3 7143 7143 7143 7143

劇本 4 6000 8000 6000 6000

劇本 5 7143 7143 7143 7143

劇本 6 5714 7143 5714 7143

劇本 7 6000 6000 6000 6000

劇本 8 5000 7500 5000 7500

劇本 9 6667 6667 6667 5000

劇本 10 7143 7143 7143 7143

劇本 11 6667 6667 6667 6667

劇本 12 7500 7500 7500 7500

平均準確

率 6561 6950 6456 6749

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 65: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

53

的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣

告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳

廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因

為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找

其他的方法或是不同的特徵詞選取使準確率改善而提升

就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定

性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本

系統進而提高系統效能讓輸出效果更能夠顯著表現

總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在

劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或

是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 66: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

54

第五章 結論與未來展望

本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在

廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外

參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析

劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞

本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來

分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞

以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部

分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出

前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF

之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇

本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可

以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪

個時段下廣告

經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特

徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣

告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向

可從兩個部分進行

一劇本特徵詞

在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是

如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未

來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確

率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 67: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

55

品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的

廣告推薦等

二廣告商品資料庫

期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告

資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的

廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在

更精細的調整且提升效能

總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的

廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料

庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得

資料分析與處理方面可以更快更有效率

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 68: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

56

參考文獻

Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM

using NLP-Based features Available at December 12 2015 from

nlpstanfordeducoursecs224n200806pdf

Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An

implementable decision support system for pre-release market evaluation of motion

pictures Marketing Science Vol 19 No 3 pp 226-243

Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character

interaction networks from plays and movies Technical report Stanford University

John G H amp Langley P (1995) Estimating continuous distributions in Bayesian

classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial

Intelligence pp 338-345

Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for

imbalanced sentiment classification Proceedings of the Twenty-Second

International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-

1831

McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models

for information extraction and segmentation ICML Vol 17 pp 591-598

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp

Page 69: 國立臺灣師範大學 資訊工程研究所碩士論文rportal.lib.ntnu.edu.tw/bitstream/20.500.12235/106382/1/060247066s01.pdfemphasis degrees of paragraphs, this study utilizes

57

Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment

Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing

Weblogs pp 155-158

Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news

event detection on twitter Proceedings of 2013 International Joint Conference on

Natural Language Processing pp 302-310

中文斷詞系統 from httpckipsvriissinicaedutw

沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工

程所碩士論文

金穗獎優良劇本 from httpwwwmovieseedscomtw

維基百科 from httpszhwikipediaorgzh-tw

廣義知網 from httpehownetiissinicaedutwindexphp