2012年6月30日土曜日

Yahoo! Pipes の XPath Fetch Page でフィードを出力してないサイトからRSS を配信する (2)

Yahoo! Pipes の XPath Fetch Page でフィードを出力してないサイトからRSS を配信する のつづき

1. パイプをどのサイトでも使えるように変更する

前回、フィードを配信していない「特定のサイト」から RSS を配信した。

今回は、上記のパイプを、どのサイトでも使えるように変更した。

SnapCrab_NoName_2012-6-30_12-7-56_No-00

例えば、Yahoo!モバゲー の場合、「○○○○ さんの日記」のページを対象としてパイプを実行する。パイプのフィールドに入力する値は以下の通り。

ブログの各記事へリンクを含むページの URL http://yahoo-mbga.jp/XXXXXX/diary
ブログのタイトル一覧を取得するXPath //li[@class="lv2-lay"]/a
ブログの内容を取得するXPath //li[@class="blk4-lay"]

GREE の場合、「日記」のページを対象としてパイプを実行する。

ブログの各記事へリンクを含むページの URL http://gree.jp/XXXXXX/blog
ブログのタイトル一覧を取得するXPath //h1[@class="title"]/a
ブログの内容を取得するXPath //*[@class="maincol"]//*[@class="content"]
記事から削除する内容(正規表現) <div class="footlink">.*?</div>

Amebaなう の場合は、以下の通り。

ブログの各記事へリンクを含むページの URL http://now.ameba.jp/XXXXXX/
ブログのタイトル一覧を取得するXPath //span[@class="status"]/a
ブログの内容を取得するXPath //li[@class="now"]//p[@class="content"]
記事から削除する内容(正規表現) <span class="status">.*?</span>

以下、作成手順を述べる。

 

2. モジュールを独立させる

SnapCrab_NoName_2012-6-29_12-1-22_No-00最初に、ウェブページから、各記事のタイトルと URL を含むパイプを独立させる。

前回作成したパイプのソースを開き、Save a copy により、新しいパイプを作成する。

Loop モジュールを削除し、Rename モジュールから Pipe Output へパイプを繋ぐ。

 

ユーザからの入力を受け付ける Input モジュール

対象となるブログの URL と、各記事の URL とタイトルを指定するための XPath をユーザが指定できるように変更する。

  • User Input >
    • URL Input モジュール
    • Text Input モジュール

を配置する。

Input 系のモジュールの

  • Name フィールドは、作成したパイプのフォームのパラメータ名となる。
  • Prompt は、フォームにおけるフィールドのラベル名となる。
  • Position は、フォームにおけるフィールドが表示される順番を表す。

次に、Input モジュールから、XPath Fetch Page モジュールのフィールドにパイプを繋げる。

SnapCrab_NoName_2012-6-30_1-17-12_No-00

独立させたパイプは、以下のもの。

 

3. 作成したモジュールを配置する

先ほどと同じく、前回作成したパイプのソースを開き、Save a copy により、新しいパイプを作成する。

  • XPath Fetch Page モジュール
  • Rename モジュール

を削除し、上記で作成したモジュールと置きかえる。

自分で作成したパイプは、

  • My pipes > ブログ記事のタイトルと URL の一覧を取得する

より配置する。

このとき、ユーザからの入力を受け入れるために、User Input より、URL Input, Text Input モジュールを置く。

SnapCrab_NoName_2012-6-30_1-34-46_No-00

Loop モジュールで使う、XPath もユーザの入力を受け取るようにする。

SnapCrab_NoName_2012-6-30_1-52-53_No-00

 

4. Regex モジュールで不必要な文字を削除する

上記に加えて、各記事の内容から、特定の文字列を削除するために Regex モジュールを追加する。この際、正規表現で削除対象を指定する。

Operator > Regex を配置し、Loop モジュールの出力を Regex モジュールに入力する。 User Inputs より、Text Input を配置し、Regex モジュールの replace に繋ぐ。

SnapCrab_NoName_2012-6-30_1-57-11_No-00

これで出来上がり。

SnapCrab_NoName_2012-6-30_23-55-56_No-00

1コメント:

匿名 さんのコメント...

大変便利なPipeありがとうございます。
早速、使わせて頂いているのですが、XPathについてよくわからず、上手くフィードが出力出来ません。
例えば、下記のようなソースの場合、XPathはどの様に、指定すれば、よろしいものでしょうか?

<!--最新情報-->
<h2>最新情報</h2>
<div class="contents">
<dl class="news">
<dt>2014年9月21日<span class="color01 category07">ホゲホゲ批評</span></dt><dd><a href="http://hogehoge.net/?p=1034" title="辛口批評。ホゲホゲ株式会社○○ ゲホゲホ">辛口批評。ホゲホゲ株式会社○○ ゲホゲホ</a> </dd>
<dt>2014年9月18日<span class="color02 category07">ホゲホゲ批評</span></dt><dd><a href="http://hogehoge.net/?p=1032" title="微妙です。ホゲホゲ式○○実践会(ゲホゲホ)レビュー">微妙です。ホゲホゲ式○○実践会(ゲホゲホ)レビュー</a> </dd>
<dt>2014年9月15日<span class="color03 category07">ホゲホゲ批評</span></dt><dd><a href="http://hogehoge.net/?p=1029" title="レビュー?ホゲホゲ~プロ仕様の爆速ツール(株式会社○○)">レビュー?ホゲホゲ~プロ仕様の爆速ツール(株式会社○○)</a> </dd>
<dt>2014年9月12日<span class="color04 category07">ホゲホゲ批評</span></dt><dd><a href="http://hogehoge.net/?p=1024" title="○○さんの完全ゲホゲホ(ホゲホゲシステム)レビュー">○○さんの完全ゲホゲホ(ホゲホゲシステム)レビュー</a> </dd>
<dt>2014年9月9日<span class="color05 category92">ツイッター</span></dt><dd><a href="http://hogehoge.net/?p=1022" title="ツイッターアカウント大量凍結の対応策。">ツイッターアカウント大量凍結の対応策。</a> </dd>
</dl>

XPathに詳しくない為、ご教授頂けると大変助かります。