[Back][Next]

要約機能付き市販ソフト(3)

last modified Jul 08 1999


3.市販ソフトの要約機能

ここでは,現在市販されているソフトをワープロソフト,データベースソフト,翻 訳ソフト,その他という4つに分類し,それぞれの代表的な製品と,その製品の要 約手法の説明をわかる範囲で試みます.

3.1.ワープロソフトの要約機能

ここでは,代表的な日本語ワープロソフトとして, マイクロソフトワード, 富士通OASYS, ジャストシステム一太郎, ロータスワードプロ の4つを取り上げ,それぞれのワープロソフトの要約機能について順に述べます.

  1. ワード97(現在のバージョンはワード2000です)(マイクロソフト)
    ワードの場合,出力を見る限り,単語の出現頻度(tf)を主な情報として使用してい るものと推測されます.恐らく,テキスト中の単語の出現頻度を計算し,重要な単 語を選び出す,もしくは各単語の重要度を計算するということを行ないます.その のち,重要な単語を多く含む文を重要だと考えるようです.

  2. OASYS V6(富士通)
    OASYSの場合は, OASYSのTOPページから「活用情報」→「大江家の人々第十話」とたどると, 要約方法のおおまかな説明があります.
    それによりますと,(1)重要なキーワードの決定,(2)キーワードをどの位含むかで 文の重要度を決定し,重要な順に文を抜粋,(3)必要に応じて文末の言い回しや接 続詞を調整する.とのことです.また重要なキーワードの決定には(1)語の出現す る頻度,(2)見出しで使われている語(語の出現位置)を情報として用いているとの ことです.

  3. 一太郎8(office editionから要約機能が付きました) (ジャストシステム)
    一太郎の場合は,少なくとも先頭部分と出現頻度の高い語を多く含む文を選択して いるものと推測されます.つまり,重要文の計算に単語のテキスト中の出現頻度と 文のテキスト中での位置の情報を主に用いているようです.また,1文の長さが比 較的長い文が選ばれる傾向があります.

  4. ワードプロ(ロータス)
    ワードプロの場合は,日本IBMの自動要約研究の成果が利用されています. ワードプロ自身にどこまで組込まれているかは明らかではありませんが,研究内容 についてはWWW上で公開されています( → IBM自動要約プロジェクトのページへ).
    このページによると,文の重要度計算は,その文に含まれる重要なキーワードの数, その文のタイプ,前後の文脈との接続関係,文の位置等の情報を利用して行ないま す.また,重要文として選択された文どうしのつながりを考慮して,前後の文を足 すなどの工夫も成されているようです.さらに,テキストのタイプに応じて文の重 要度計算に使用する情報の重みを調整することも行なわれているとのことです.

3.1.1ワープロソフトの要約実行例

ワード97,一太郎8,OASYS V6を用いて, 「1.はじめに」の文章を10%,20%,30%で要約した例を示します.

ワード97の要約
10% 専門ソフトにはなっていないものの,他のソフトの基本機能として要約機能が付くのは,もはやあたり前のことになったと言えるでしょう. あれも要約です. ではこれらの市販ソフトでは,どのような方法で要約を作成しているのでしょうか?
20% 専門ソフトにはなっていないものの,他のソフトの基本機能として要約機能が付くのは,もはやあたり前のことになったと言えるでしょう. ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや,翻訳ソフトにも要約機能付きのものがあります. あれも要約です. ではこれらの市販ソフトでは,どのような方法で要約を作成しているのでしょうか? この重要文抽出という手法では,テキスト中の文や単語を単位として考え,それぞれの重要度を計算します.
30% 専門ソフトにはなっていないものの,他のソフトの基本機能として要約機能が付くのは,もはやあたり前のことになったと言えるでしょう. ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや,翻訳ソフトにも要約機能付きのものがあります. あれも要約です. ではこれらの市販ソフトでは,どのような方法で要約を作成しているのでしょうか? この重要文抽出という手法では,テキスト中の文や単語を単位として考え,それぞれの重要度を計算します. 要約の作成は,指定された要約率に合わせて重要度の高い順にテキスト中の文や単語(あるいは文節など)を取り出すことで作成されます. このページでは,まず,2節で基本的な重要文抽出の手法について説明します.

一太郎8の要約
10% 1.はじめに
この重要度の計算方法は,いろいろ考えられており,各ソフト毎に違うものと予想されます(実際にいくつかのソフトを使用して同じテキストの要約を作成すると,だいたいは違う要約が作成されます).
20% 1.はじめに
現在のところ,要約を専門に行なうソフトは恐らく販売されていないと思います(もしあれば,御一報下さい). この重要度の計算方法は,いろいろ考えられており,各ソフト毎に違うものと予想されます(実際にいくつかのソフトを使用して同じテキストの要約を作成すると,だいたいは違う要約が作成されます). そして,続く3節では,実際に市販されているソフトをワープロソフト,データベースソフト,翻訳ソフト,その他という4つに分類し,それぞれの代表的な製品をあげ,わかる範囲でその製品で使用される要約手法の説明を試みます.
30% 1.はじめに
現在のところ,要約を専門に行なうソフトは恐らく販売されていないと思います(もしあれば,御一報下さい). ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや,翻訳ソフトにも要約機能付きのものがあります. しかし,各ソフトによって作成された要約を見る限り,重要文抽出あるいは重要個所抽出と呼ばれる手法を使って実現されているものと推測されます(以下,重要文抽出で統一します). この重要度の計算方法は,いろいろ考えられており,各ソフト毎に違うものと予想されます(実際にいくつかのソフトを使用して同じテキストの要約を作成すると,だいたいは違う要約が作成されます). そして,続く3節では,実際に市販されているソフトをワープロソフト,データベースソフト,翻訳ソフト,その他という4つに分類し,それぞれの代表的な製品をあげ,わかる範囲でその製品で使用される要約手法の説明を試みます.

OASYS V6の要約
10% 1.はじめに
…その代表的なものはワープロソフトです.…しかし,各ソフトによって作成された要約を見る限り,重要文抽出あるいは重要個所抽出と呼ばれる手法を使って実現されているものと推測されます(以下,重要文抽出で統一します).
20% 1.はじめに
…ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや,翻訳ソフトにも要約機能付きのものがあります. …しかし,各ソフトによって作成された要約を見る限り,重要文抽出あるいは重要個所抽出と呼ばれる手法を使って実現されているものと推測されます(以下,重要文抽出で統一します). この重要文抽出という手法では,テキスト中の文や単語を単位として考え,それぞれの重要度を計算します.
30% 1.はじめに
…ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや,翻訳ソフトにも要約機能付きのものがあります. …しかし,各ソフトによって作成された要約を見る限り,重要文抽出あるいは重要個所抽出と呼ばれる手法を使って実現されているものと推測されます(以下,重要文抽出で統一します). この重要文抽出という手法では,テキスト中の文や単語を単位として考え,それぞれの重要度を計算します. …そして,続く3節では,実際に市販されているソフトをワープロソフト,データベースソフト,翻訳ソフト,その他という4つに分類し,それぞれの代表的な製品をあげ,わかる範囲でその製品で使用される要約手法の説明を試みます.


3.2.データベースソフトの要約機能

(テキスト)データベースソフトは,ワープロソフトとは異なる情報を利用すること ができます.それは,データベース全体のテキスト集合から単語の出現テキスト 頻度(df)の情報が利用できる点です. そのため,データベースソフトの要約機能は, tf.idf法による単語の重要度が用いられているものと推測されます.

  1. ConceptBase(ジャストシステム)
    ConceptBaseは標準(ConseptBase Search)でも,検索結果テキストの要約機能が付 いてますが,オプションでCB Summarizerという要約機能が用意されています. この要約機能の詳細は,文献3に詳しく 紹介されています.この文献を読む限り,基本的には重要文抽出を行なっているよ うですが,重要度の計算を制御するパラメータがいくつか用意されています.例え ば,出現頻度に基づいた単語 の重要度を重視するか,文のタイプを考えて陳述部分を重視するかを切り換えるパ ラメータや,テキスト全体や段落などの先頭や末尾に近い文の重要度を調節するパ ラメータの存在があげられています.
    また,作成される要約の読みやすさの向上や誤読を避けるために,いくつかの制約 が設けられています.例えば,箇条書きは1まとめにするとか,照応解析の結果か ら切り離してはいけない文や句をまとめるなどです.

  2. Sharlock (apple MacOS 8.5以降(現在のバージョンは 8.6です)についた機能)
    Sharlockの要約は,アップル社のWWWページ上の説明(→ 該当ページへ)によると,文単位のベクトルを計算し,テキスト全体のベクト ルに近いベクトルを持った文が抜き出されるそうです. これだけでは具体的なことはわかりませんが, 恐らくベクトルの要素はtf.idf法によって計算された各単語の重要度だと思われます.

その他,オラクルのOracle8にもCon Text カートリッジというテキスト検索オプションが用意されており,要約機能もあるよう ですが詳細はわかりません.


3.3.翻訳ソフトの要約機能

翻訳ソフトにも要約機能が付いたものがあります.ここでいう翻訳ソフトの要約機 能とは,翻訳元の英語テキストから重要文を選択して,その要約を翻訳するという 機能のことを言います.代表的な翻訳ソフトについて,このような機能の有無を調 べてみましたが,以外に割合は多くなく,わかる範囲では2製品だけでした.今回 調べた製品のリストを表1.にまとめます.ただし,この調査 はWWW上で公開されているメーカー公式の情報(カタログ,製品紹介等)を参照したも のですので,実際には要約機能の付いたものが他にもあるかもしれません. 要約機能が確認できた製品は以下の2つです.

  1. インターネット翻訳の王様V2.0(現在のバージョンは3.0です)(日本アイビーエム)
    翻訳の王様では,ワードプロと同様にどの程度製品に組込まれているかは 明らかではありませんが,日本IBMの自動要約研究の成果が利用されてい ます.研究内容についてはWeb上で公開されています(→ IBM自動要約プロジェクトのページへ).
    同ページで紹介されている文献( 文献2)によりますと, 翻訳の王様では,接続詞の関係を考慮しており,接続詞を冒頭に持つ文は, 前の文と組みにして採否が決まるようにしてあるそうです.例えば, 「Aである.ところで,...Bである.だからCである」というような場合に, 「Aである.だからCである」とはならないよう配慮されているとのことで す.

  2. Power E/J Ver.4.0 (シャープ)
    英文WWWページの重要文のみ素早く翻訳できる「ななめ読み翻訳」機能が 付いています.

表1.翻訳ソフトの要約機能
製品名(会社名) OS 要約機能備考
翻訳の王様(日本アイビーエム) Win要約翻訳
Power E/J(シャープ) Win 英文WWWページの重要文のみ素早く翻訳できる「ななめ読み翻訳」機能
コリャ英和!(カテナ)Mac/Win×  
EtoJ PRO(カテナ)Mac/Win×  
ATLAS(富士通)Win×  
The翻訳(東芝)Win×  
CROSSROAD(日本電気)Win×  
PC/NetSurfer/ej(ノヴァ)Mac/Win 見出しのみを翻訳することができる
E-J BANK(エーアイロジック) Mac/Win×  
PENSEE(沖ソフトウェア)Win×  
翻訳革命(松下電器)Win×  
訳せ!!ゴマ(エーアイソフト)Win×  


3.4.その他のソフトの要約機能

その他のソフトとして,WWWの検索エンジンについて調べてみました.その結果を 表2にまとめます.
表を見てわかるように,今回調査した検索エンジンではどれも,タグなどを取り除い た先頭のNバイトを要約とするという非常に単純な手法をとっているようです.
これは,検索対象となるテキスト(この場合Webのページ)が何千万件にものぼるた め,複雑な要約作成処理をするには時間的,計算機的なコストがかかり過ぎること が理由だと思われます.

表2.WWW検索エンジンの要約
サイト 方式
Infoseek タグなどを除いた最初のNバイトだと推測される
goo ヘルプには,「文書中のテキストで書かれた部分の内容をもとに, それを要約した100字程度の簡単な紹介文を,自動的に作成」 (引用元),とあるが, 出力を見る限り,タグなどを除いた最初のNバイトだと推測される.
excite ヘルプには,「本文中に含まれる文章の要約」( 引用元) とあるが,出力を見る限り,タグなどを除いた最初のNバイトだと推測される.
lycos タグなどを除いた最初のNバイトだと推測される.
altavista タグなどを除いた最初のNバイトだと推測される.


[Back][Next]