Webサービス

PDF-テキスト変換のWebサービスを使ってみた

”PDFファイル内の文章をテキストデータ化する必要があり、Webサービスを使ってみたので簡単にレポートします。

 

PDFからテキストへ変換する

今回、Webサイトに掲載するテキストの編集をやることになったんですが、いただいたのがPDFファイルだったんで、いったんテキストデータ化することにしました。

 

最終的な利用目的がWebページなので、できればTypora上で文章を校正して、見出し設定などの構造化、強調その他の装飾までやってしまいまたいと思います。

Typoraには文書変換機能としてPandocを組み込んでありますが、さすがのPandocもPDFを直接読み込んでの編集はできません。

それに、いただいた原稿は見出しなどがないベタ打ちだったんで、すなおにプレーンテキストに変換することにしました。

 

Webの無料変換サービスを利用する

本家のAdobe Acrobatがあればいいんですが、ふだんPDFの本格的な編集はやっていないので、もっていません。

そこで、ネットで変換ツールを探したんですが、いまではWeb上に変換サービスがいくつかあるんで、そこから検索上位に出てきた3つを試してみます。

  • PDFcandy.com
  • hipdf.com
  • jinapdf.com

基本的な使い方はどこも同じでWebページ上にPDFファイルを追加すると変換を行い、結果をパソコン上にダウンロードします。

またどのサービスも、PDFからテキストへの変換だけでなくOffice文書への変換や画像ファイルからの変換などが可能です。

 

PDFcandy.com

PDFcandyは、いろんな文書形式の変換ツールを提供しているサイトです。

PDFcandy ホーム

PDFcandyのホームページ

 

ツールがありすぎてわかりにくいくらいですが、PDFからテキストへの変換はテキスト抽出というページにあります。

PDFcandy テキスト抽出ページ

テキスト抽出ページ

 

中央に大きな「+ファイル追加]ボタンがあり、クリックしてファイルを選択することもできるし、その横にあるボタンでGoogleドライブDropboxを開くこともできます。

PDFファイルをドロップすると、アップロード>キューに登録>抽出中とメッセージが変わっていきますがこの間は自動です。

PDFcandy ファイルドロップ中

ファイルドロップ時は画面が変化

 

変換が終わると完了画面にダウンロードボタンが出るのでクリックして変換したテキストファイルを保存します。

ここでもGoogleドライブDropBoxが使えます。

PDFcandy 変換終了

変換したファイルを保存する

 

複数のPDFを連続して変換したいときは、ひとつ処理したあと[最初からやり直す]ボタンをクリックすれば、前の画面に戻ります。

ちなみに複数のファイルをまとめて処理することはできないので、PDFファイルがたくさんあるときは繰り返し変換することになります。

PDFcandy 複数ファイルのドロップ

複数ファイルの一括処理はできない

 

デスクトップ用のアプリケーションをインストールすればファイル数の制限なしに変換できますが、無料版だと処理できる数に制限があります。

たくさん変換したかったら、有料版を購入しましょう。

 

hipdf.com

hipdf.comもいろんな変換ができるWebサービスですが、サイトのトップから見る限り種類はPDFcandy.comほど多くありません。

しかし、すべてのツールを表示すると実は意外にたくさんの変換機能を提供しています。

hipdfサイト

hipdfのホームページ

 

PDFからテキストへの変換はPDFをテキスト化というページにありますが、トップからはちょっと探しにくいようです。

hipdfのテキスト変換ページ

hipdfのテキスト変換ページ

 

hipdf.comではDropboxOne DriveBoxの3つのクラウドストレージに対応しています。

ファイルをドロップするとアップロードが始まり、終了したら[変換]をクリックします。

ファイルの選択を間違えていたらこの段階で削除(キャンセル)も可能です。

hipdfアップロード終了

アップロード終了画面

 

変換が終わったら[ダウンロード]ボタンをクリックして、ファイルを保存します。

ここでもオンラインストレージに対応していますが、ボタンはDropboxBoxのふたつだけで、One Driveがありません。

hipdf 変換終了画面

変換終了画面

 

続けて変換したいときは右下の[やり直す]をクリックします。

ただし、24時間以内に変換できるファイルは2つだけに制限されています(記述の上ではタスクが2回)。

hipdf 利用制限

24時間以内に2回まで利用できる

 

また、hipdf.comでは複数のファイルをドラッグ&ドロップできますが、実際にアップロードされるファイルはひとつだけです。

ユーザー登録を行うか、デスクトップ版アプリケーションをインストールすればファイル数に関する制限は解除されるようです。

 

jinapdf.com

jinapdf.comでもいろんな変換ができます。

jinapdfホームページ

jinapdf.comのホーム

 

PDF文書からテキストへの変換はPDFをTextへというページで行います。

大きな広告が入っているので一瞬迷いますが、[PDFファイルを選択]というボタンがあるのでファイルを登録してください。

オンラインストレージには対応していないようです。

jinapdf テキスト変換ページ

ファイルはアップロードのみ

 

ファイルを指定すると直ちにアップロード~変換が行われるので、途中の操作はありません。

すぐにファイルのダウンロードができます。

jinapdf ファイルダウンロード

途中の操作はなく、ダウンロードのみ

jinapdf.comの特徴は、ファイル名が独特なところです。

PDFcandyとhipdfでは元のPDFファイルの名前がデフォルトでしたが、jinapdfでは"converted_xxxxxxxxx.txt"というファイル名がつきます。

もちろん保存するときには好みのファイル名をつけることができますが、ややめんどうな気もします。

jinapdf ファイル名指定

オリジナルPDFとは別の名前がついている

 

連続して変換したいときはダウンロード後に現われる[←別のファイルを変]というボタンをクリックして最初の画面に戻ります。

ファイルのドラッグ&ドロップに対応せず、ダイアログボックスから選択する形式なので、ファイルの一括登録はできません。

 

変換結果を比べてみた

同じPDFファイルを、3つのサービスで変換した結果を比べてみました。

結果は、PDFcandyとjinapdfはほぼ同じだったのに対し、hipdfだけ大きく違っています。

テキスト比較1

hipdfは改行がなく半角スペースが1文字ごとに入る

PDFcandyとjinapdf

  • 一文字ずつきれいに認識している
  • PDF上の折り返し部分で改行が入っている

hippdf

  • 一文字おきに半角スペースが入っている
  • 折り返し部分は改行されていない

WinMergeでの比較

PDFcandyとjinapdfの結果はテキストエディタ上ではぱっと見分けが付かないので、専用のテキスト比較ツールWinMergeを使って確認してみました。

結果は、段落の改行で4ヶ所ほど違いが見つかりましたが、ほぼ同じでした。

テキスト比較2p

PDFcandyとjinapdfの変換結果はほぼ同じ

 

たまに使うのならWebサービスで充分

見出しも図版も入っていないベタ打ちテキストを変換するだけの極めて簡単なテストでしたが、この結果を見ると、PDFcandyがいちばん扱いやすそうです。

折り返しごとに入っている改行は、文字列置換で簡単に削除できます。

いっぽう、一文字ごとに半角スペースが入っているのは処理がめんどうです。

変換の操作性はどれも似たり寄ったりですが、PDFcandyとhipdfがオンラインストレージ対応なのに対して、jinapdfはローカルPC上のファイルしか扱えないので、そこで差を付けました。

ファイル数個を変換するだけだったら、わざわざ専用ツールをインストールするまでもないと思うので、Web上の変換サービスを活用してください。

 

-Webサービス